Teknik Industri

Memahami Statistik Deskriptif: Mengungkap Rahasia Data

Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024


Statistik deskriptif adalah sekumpulan statistik ringkasan yang secara kuantitatif menggambarkan atau merangkum fitur dari kumpulan informasi, sedangkan statistik deskriptif merupakan proses penggunaan dan analisis statistik tersebut. Tujuan statistik deskriptif adalah untuk merangkum sampel data, bukan untuk menggunakan data tersebut untuk mempelajari populasi yang dianggap mewakili sampel data tersebut. Ini berbeda dengan statistik inferensial, yang bertujuan untuk membuat kesimpulan tentang populasi berdasarkan sampel data yang diperoleh.

Statistik deskriptif umumnya tidak dikembangkan berdasarkan teori probabilitas, dan seringkali merupakan statistik nonparametrik. Meskipun analisis data utamanya menggunakan statistik inferensial, statistik deskriptif biasanya juga disajikan. Misalnya, dalam laporan penelitian tentang subjek manusia, biasanya terdapat tabel yang mencantumkan ukuran sampel keseluruhan, ukuran sampel dalam subkelompok penting, dan karakteristik demografis atau klinis seperti usia rata-rata, proporsi subjek dari setiap jenis kelamin, proporsi subjek dengan penyakit penyerta terkait, dll.

Beberapa ukuran yang umum digunakan untuk menggambarkan kumpulan data adalah ukuran pusat dan ukuran keragaman atau dispersi. Ukuran pusat meliputi mean, median, dan mode, sedangkan ukuran keragaman meliputi standar deviasi (atau varians), nilai minimum dan maksimum variabel, kurtosis, dan skewness. Dengan memahami dan menggunakan statistik deskriptif ini, kita dapat mengungkap rahasia yang tersembunyi dalam data dan membuat kesimpulan yang lebih tepat tentang populasi yang direpresentasikan oleh sampel data tersebut.

Penggunaan Analisis Statistik

Statistik deskriptif memberikan ringkasan sederhana tentang sampel dan pengamatan yang telah dilakukan. Ringkasan tersebut dapat berupa ringkasan kuantitatif, yaitu ringkasan statistik, atau visual, yaitu grafik yang mudah dipahami. Ringkasan ini dapat menjadi dasar deskripsi awal data sebagai bagian dari analisis statistik yang lebih luas, atau dapat juga cukup untuk investigasi tertentu.

Sebagai contoh, persentase tembakan dalam bola basket adalah statistik deskriptif yang merangkum performa pemain atau tim. Angka ini adalah jumlah tembakan yang dilakukan dibagi dengan jumlah tembakan yang dilakukan. Sebagai contoh, seorang pemain yang melakukan tembakan 33% berarti melakukan sekitar satu tembakan dari setiap tiga tembakan. Persentase ini merangkum atau menggambarkan beberapa kejadian terpisah. Pertimbangkan juga indeks prestasi kumulatif. Angka tunggal ini menggambarkan kinerja umum seorang siswa di seluruh rentang pengalaman kursus mereka.

Penggunaan statistik deskriptif dan ringkasan memiliki sejarah yang panjang dan, memang, tabulasi sederhana dari populasi dan data ekonomi adalah cara pertama kali topik statistik muncul. Baru-baru ini, kumpulan teknik ringkasan telah dirumuskan di bawah judul analisis data eksplorasi: contoh dari teknik tersebut adalah plot kotak.

Dalam dunia bisnis, statistik deskriptif memberikan ringkasan yang berguna dari berbagai jenis data. Contohnya, investor dan pialang dapat menggunakan catatan historis mengenai perilaku imbal hasil dengan melakukan analisis empiris dan analitis pada investasi mereka untuk membuat keputusan investasi yang lebih baik di masa depan.

Analisis univariat

Analisis univariat melibatkan penggambaran distribusi variabel tunggal, termasuk tendensi sentral (termasuk rata-rata, median, dan modus) dan dispersi (termasuk rentang dan kuartil dari kumpulan data, dan ukuran penyebaran seperti varians dan deviasi standar). Bentuk distribusi juga dapat digambarkan melalui indeks seperti skewness dan kurtosis. Karakteristik distribusi variabel juga dapat digambarkan dalam format grafik atau tabel, termasuk histogram dan tampilan batang-dan-daun.

Analisis bivariat dan multivariat 

Ketika sebuah sampel terdiri dari lebih dari satu variabel, statistik deskriptif dapat digunakan untuk menggambarkan hubungan antara pasangan variabel. Dalam hal ini, statistik deskriptif meliputi:

  • Tabulasi silang dan tabel kontingensi
  • Representasi grafis melalui diagram pencar
  • Ukuran kuantitatif ketergantungan
  • Deskripsi distribusi bersyarat

Alasan utama untuk membedakan analisis univariat dan bivariat adalah karena analisis bivariat tidak hanya merupakan analisis deskriptif sederhana, tetapi juga menggambarkan hubungan antara dua variabel yang berbeda. Ukuran kuantitatif ketergantungan meliputi korelasi (seperti r Pearson ketika kedua variabel bersifat kontinu, atau Spearman's rho jika salah satu atau keduanya tidak kontinu) dan kovarians (yang mencerminkan skala variabel diukur). Kemiringan, dalam analisis regresi, juga mencerminkan hubungan antar variabel. Kemiringan yang tidak terstandardisasi menunjukkan perubahan unit dalam variabel kriteria untuk perubahan satu unit dalam prediktor. Kemiringan terstandardisasi menunjukkan perubahan ini dalam unit terstandardisasi (z-score). Data yang sangat miring sering kali ditransformasikan dengan menggunakan logaritma. Penggunaan logaritma membuat grafik menjadi lebih simetris dan terlihat lebih mirip dengan distribusi normal, sehingga lebih mudah diinterpretasikan secara intuitif.
 

Disadur dari: en.wikipedia.org

Selengkapnya
Memahami Statistik Deskriptif: Mengungkap Rahasia Data

Teknik Industri

Profesi di Bidang Data: Peluang Karier yang Menjanjikan di Era Digital

Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024


Profesi di bidang data kini tengah menjadi kebutuhan besar di banyak perusahaan. Hampir seluruh perusahaan kini membutuhkan tenaga praktisi data untuk dapat mengolah data dengan sebaik mungkin demi kemajuan bisnis.

Olahan data yang sempurna dapat mendatangkan informasi dan insight yang bermanfaat bagi kemajuan perusahaan. Oleh sebab itu, perusahaan pun rela memberikan upah besar kepada para praktisi data.

Tak heran, jika semakin tahun semakin banyak orang yang tertarik untuk bisa berkarier di dunia data. Sejalan dengan riset Kementerian Komunikasi dan Informatika RI yang menyatakan Indonesia membutuhkan setidaknya 9 juta Sumber Daya Manusia (SDM) atau talenta digital hingga tahun 2030 untuk bisa meraih manfaat maksimal dari ekosistem digital.

DQLab Universitas Multimedia Nusantara (UMN) membahas sejumlah profesi di ranah data yang bersinar di tahun 2022 dan semakin menjanjikan 5 tahun mendatang:

  1. Analis Data

Seorang analis data bertanggung jawab untuk mengumpulkan, memproses, melaporkan, dan memvisualisasikan data sebagai kesimpulan. Mereka juga memanipulasi database dan melakukan analisis statistik serta interpretasi data. Keterampilan yang diperlukan termasuk penggunaan alat seperti spreadsheet, Google Analytics, SQL, dan Tableau, serta pemahaman dasar dalam bahasa pemrograman, visualisasi data, dan statistika.

  1. Data Scientist

Profesi ini berperan membuat prediksi berdasarkan pola dari kumpulan data yang berasal dari masa lalu dan sekarang, kemudian data akan diolah dan dianalisis sampai menghasilkan informasi. Bisa dikatakan, Data Scientist lebih ke arah hal teknis seputar data, yang mana tugasnya meliputi perencanaan strategis untuk analisis data, melakukan data preprocessing dan visualisasi data. Seorang Data Scientist dituntut memiliki beberapa skill set, seperti statistika dan analytical skill, data mining, algoritma machine learning and deep learning, bahasa pemograman Python & R, serta komunikatif dalam menyampaikan hasil melalui visualisasi data. rapihkan tapi jangan rubah teks

  1. Data Engineer

Profesi ini melibatkan penanganan data mentah dengan menggunakan pengetahuan logis dan dasar database. Insinyur data bertanggung jawab atas infrastruktur data di perusahaan, termasuk membangun data warehouse dan mempersiapkan data untuk digunakan oleh ilmuwan data dan analis data. Keterampilan yang dibutuhkan mencakup ETL, pemodelan data, data warehousing, manipulasi data dengan SQL dan NoSQL, serta visualisasi data.

  1. Intelijen Bisnis

Dengan adanya profesi ini, perusahaan dapat menentukan langkah yang tepat berdasarkan fakta data yang sudah diolah sehingga menghasilkan kesimpulan. Business Intelligence merupakan gabungan antara business analytics, data mining, dan data visualization. Secara umum, perannya adalah meninjau data pelanggan yang telah dikumpulkan, mengawasi penyebaran data ke data warehouse, serta mengembangkan kebijakan dan prosedur untuk pengumpulan data dan analisis data. Skill set yang harus dikuasai untuk berkarier menjadi Business Intelligence, yang pertama kemampuan analisis data agar dapat melihat relevansi dan makna dari banyaknya data mentah. Ilmu komunikasi tak kalah penting, skill ini dibutuhkan saat kamu mempresentasikan hasil visualisasi data kamu serta yang terakhir adalah pengetahuan di bidang industri.

  1. Analisis Bisnis

Pada dasarnya, business analytics juga memiliki peran penting ketika perusahaan berbicara soal big data. Sederhananya, business analytics adalah pendekatan yang dapat dimanfaatkan untuk akses dan eksplorasi data perusahaan. Tujuannya tidak lain untuk menggali wawasan baru yang dapat meningkatkan rencana bisnis dan kinerja perusahaan. Oleh sebab itu, business analytics disebut sebagai pelengkap kehadiran business intelligence. Jika mereka dapat berjalan secara bersamaan, makan bisa menginterpretasikan data sebaik mungkin dalam memprediksi apa yang akan terjadi berdasarkan data. Business analytics juga dapat membantu dalam menyusun strategi, mengenal peluang pasar, menunjukkan potensi risiko, dan lain semacamnya.
 

Sumber:  edukasi.kompas.com

 

Selengkapnya
Profesi di Bidang Data: Peluang Karier yang Menjanjikan di Era Digital

Teknik Industri

Peningkatan Populeritas Big Data, Industri Mengincar SDM dengan Kualifikasi Data Science

Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024


JAKARTA, KOMPAS.com – Pernahkah Anda bertanya bagaimana media sosial merekomendasikan artikel, web page, atau user lain untuk diikuti? Atau, barangkali Anda pernah mendapati iklan tentang barang yang secara kebetulan dibutuhkan muncul tiba-tiba saat sedang asyik mengulik foto maupun video di media sosial Instagram? Jika iya, berarti Anda sedang merasakan sendiri bagaimana teknologi digital mengubah pola advertising saat ini. Hal-hal tersebut bisa terjadi berkat fenomena big data yang saat ini digunakan oleh perusahaan digital. Seiring kemunculan berbagai platform tempat berbagi konten foto, teks, video, dan data diri, data pribadi pun sudah tak menjadi hal yang sifatnya privasi di era ini.

Jumlah data ini luar biasa banyak sehingga dapat dikelola dengan baik untuk berbagai kepentingan, termasuk dalam bidang bisnis. Head of Data Science Program Bina Nusantara (Binus University) Alexander Gunawan mengatakan, perkembangan teknologi yang semakin pesat membuat hampir semua perusahaan memiliki dan dapat memanfaatkan big data, baik yang bersifat publik maupun privat. “Di Indonesia, semakin banyak perusahaan berbasis teknologi informasi (TI) seperti start-up yang berjalan secara online menggunakan data digital,” kata Alexander saat diwawancara Kompas.com, Kamis (26/11/2020). Alex juga mengatakan, big data tidak hanya dapat dimanfaatkan untuk kepentingan bisnis perusahaan teknologi, tetapi juga bidang lain mulai dari pemerintahan, perbankan, aktuaria (asuransi), konsultan jasa statistik, telekomunikasi, industri pabrik, pemasaran, industri kimia dan farmasi, hingga riset kesehatan.

Gunanya bermacam-macam. Di bidang pemerintahan misalnya, big data digunakan untuk mempercepat pengambilan keputusan, monitoring, dan evaluasi. Sementara di perbankan, big data dapat digunakan untuk meminimalisasi terjadinya kredit bermasalah dan kerugian bank, serta sebagai basis informasi mengenai rekam jejak debitur dalam aktivitas bisnis sehari-hari. Alexander menjelaskan, untuk mengambil, menyimpan, dan menganalisis data-data digital, diperlukan keilmuan data science dengan sumber daya manusia (SDM) yang kompeten dalam bidang ini. Dengan mengoptimalisasi data-data tersebut, lanjut Alexander, perusahaan dapat memperbaiki sekaligus meningkatkan layanan kepada konsumen.

“Jika (perusahaan) tidak mengacu pada data dan melihat perkembangan tren selera customer, mereka tidak dapat mengembangkan aplikasi maupun layanan yang relevan dengan kebutuhan konsumen,” jelasnya. Karenanya, lanjut dia, perusahaan perlu melakukan upgrading skill data analis SDM sehingga karyawan mahir sebagai data scientist.

Kebutuhan vital SDM data science

Di Indonesia, SDM dengan kompetensi data science masih kurang. Untuk mengisi kesenjangan (gap) terhadap kebutuhan tersebut, kata Alex, perusahaan melakukan upgrading SDM yang sudah ada lewat training (pelatihan) dari pihak ketiga. "Dengan begitu, SDM yang sudah ada bisa dimanfaatkan untuk mengolah data," kata Alex.

Meski demikian, menurutnya, akan lebih efektif jika perusahaan tetap memiliki karyawan yang memiliki disiplin ilmu data science. Hal ini memudahkan mereka jika ingin mengolah data, membaca proyeksi bisnis, dan mengambil keputusan. "Makanya, kalau misal di perusahaan ada yang berlatar belakang pendidikan data science, orang-orang ini biasanya yang dijadikan pimpinan divisi," tambahnya.

Sebagai pimpinan divisi, kata Alex, SDM potensial tersebut berperan untuk menyeragamkan kompetensi data science anggota divisi yang berasal dari berbagai latar belakang pendidikan, seperti ekonomi, informatika, maupun matematika. Kebutuhan akan SDM dengan disiplin ilmu data science juga diungkap Alex lewat publikasi World Economic Forum 2020 berdasarkan survei "Future of Job Report 2018". Di situ disebut bahwa data analyst dan data scientist menjadi peringkat pertama dari 10 pekerjaan paling bertumbuh pada 2022.

Alex memaparkan, keahlian dari disiplin ilmu ini memang akan terus dibutuhkan. Apalagi, imbuh Alex, di masa mendatang, ilmu data science semakin berkembang diikuti dengan jumlah data yang lebih besar. Keilmuan data science yang bersifat dinamis menurut Alexander juga menjadi tantangan tersendiri.

Seiring laju teknologi yang semakin cepat, keahlian SDM harus diperbaharui setiap tahun. “Tahun ini pakai program apa, tahun depan (sudah) ganti program lain yang lebih relevan,” urainya. Di sisi lain, ilmu data science membutuhkan pengetahuan dasar yang kuat dalam bidang matematika dan statistik sebagai dasar kemampuan analis. Ia menilai, dua hal tersebut menjadi salah satu tantangan dalam menyiapkan SDM yang relevan.

Mempersiapkan SDM Kompeten

Merespons kebutuhan industri terhadap SDM dengan kompetensi data science, Bina Nusantara (Binus) University menyediakan program studi strata 1 (S1) Data Science. Program Data Science merupakan bagian dari School of Computer Science yang terakreditasi A. Program studi ini mempelajari semua jenis data yang dihasilkan oleh proses bisnis dan operasional perusahaan.

Kemudian, dianalisis menggunakan teknik mining data (penambangan data) untuk memahami bagaimana kinerja suatu bisnis dan untuk mengidentifikasi peluang yang baru. Adapun program ini dirancang untuk memberikan mahasiswa keterampilan programming software development, machine learning, proses riset, dan domain knowledge berdasarkan kasus dari berbagai bidang.

“(Seorang) data scientist sebenarnya seperti ‘detektif’. Mereka harus punya kemampuan untuk memecahkan persoalan dan memberikan solusi. Skill utama ‘detektif’ adalah mengumpulkan data, kemudian menganalisis data, mencari hubungan antara setiap fakta sehingga menghasilkan suatu insight atau solusi. Itu skill utamanya,” papar Alexander.

Dalam proses belajar, lanjut dia, kalkulus dan statistik menjadi pelajaran fundamental untuk melakukan interpretasi data. Ketika berhadapan dengan data, terutama data yang detail dan ingin melakukan interpretasi hubungan variabel, ilmu statistik menjadi kunci. “Ketika jumlah data (yang dianalisis) sangat besar atau disebut big data atau mahadata, program studi Data Science mempelajari machine learning untuk mengolah data atau mencari pola data sehingga modelnya bisa digunakan untuk melakukan prediksi,” jelasnya.

Kemampuan lain yang juga harus dimiliki seorang lulusan Program Data Science adalah komunikasi. Kata Alex, solusi atau data yang telah diolah pada akhirnya akan disajikan dalam bentuk presentasi pada stakeholder. Di bagian ini, mereka harus cakap berkomunikasi, bahkan harus pintar storytelling. Alex menyebut, khusus di Binus, lulusan Program Data Science dipersiapkan untuk mampu bekerja di dunia industri.

Karenanya, mahasiswa program tersebut dibekali portofolio sejumlah kasus untuk dipecahkan. “Bila mahasiswa yang punya minat pada teknologi, mereka bisa mengambil data-data maupun kasus yang berkaitan dengan teknologi. Bila tertarik pada bidang bisnis, (mereka) bisa mengambil data-data yang berkaitan dengan bisnis seperti data transaksi,” imbuhnya. Dengan portofolio tersebut, perkembangan skill mahasiswa bisa diketahui berdasarkan studi kasus yang telah dikerjakan.

Persiapan lain yang dilakukan agar mahasiswa siap berhadapan langsung dengan pelaku industri atau masyarakat adalah 3+1 Enrichment Program. Program ini berlangsung selama 2 semester atau sebanyak 32 SKS yang dimulai dari semester 5 atau 6 sampai semester 7. Selama setahun, mahasiswa akan belajar di luar lingkungan kampus dan menimba ilmu dari perusahaan-perusahaan multinasional atau global.

Tujuan program ini adalah memberi kesempatan pada mahasiswa untuk terjun lebih awal ke dunia kerja. Dengan cara itulah, mahasiswa lebih siap bersaing. “Dalam 3+1 Enrichment Program, ada 5 jalur yang dapat dipilih mahasiswa, antara lain magang di industri, proyek riset, magang di luar negeri, entrepreneurship, dan kuliah kerja nyata (KKN),” terangnya.
 

Sumber: kompas.com

Selengkapnya
Peningkatan Populeritas Big Data, Industri Mengincar SDM dengan Kualifikasi Data Science

Teknik Industri

Definisi Menggali Pengetahuan dengan Data Mining

Dipublikasikan oleh Muhammad Ilham Maulana pada 18 April 2024


Definisi, karakteristik, dan manfaat

Definisi data mining, secara sederhana, adalah istilah yang digunakan untuk menjelaskan proses pencarian atau penambangan knowledge dari data yang sangat besar. Menurut analogi, orang mungkin berpikir bahwa istilah data mining adalah sesuatu yang tidak tepat; menambang emas dari bebatuan atau lumpur diacu sebagai  ‘penambangan emas’ dan bukannya penambangan ‘batu’ atau ‘lumpur’.

Jadi, data mining barangkali lebih cocok diberi nama ‘knowledge mining’ atau ‘knowledge discovery’. Meskipun ada ketidakcocokan antara makna dan istilah, data mining telah menjadi pilihan bagi komunitas ilmu ini. Banyak nama-nama lain yang ter-asosiasi dengan data mining antara lain ‘knowledge extraction’, ‘pattern analysis’, ‘data archaeology’, ‘information harvesting’, ‘pattern searching’, dan ‘data dredging’.

Secara teknis, data minig adalah proses yang memanfaatkan teknik-teknik statistik, matematika, dan kecerdasan buatan untuk mengekstrak dan mengidentifikasi informasi dan knowledge selanjutnya (atau pola-pola) yang berasal dari sekumpulan data yang sangat besar.  Berbagai macam pola tersebut bisa dalam bentuk aturan bisnis, kesamaan-kesamaan, korelasi, trend, atau model-model prediksi.

Kebanyakan literatur mendefinisikan data mining sebagai “proses yang rumit untuk mengidentifikasi pola-pola yang valid, baru, memiliki potensi bermanfaat, dan bisa dipahami, terhadap data yang disimpan di dalam database yang terstruktur”, dimana data diorganisir dalam baris-baris yang terstruktur menurut kategori, ordinal/berurutan, dan variable-variabel yang berkesinambungan. Dalam definisi ini, beberapa arti dari kata-kata kunci di atas adalah seperti berikut:

  • Proses: artinya data mining terdiri dari banyak langkah perulangan Rumit: artinya bahwa ada suatu dugaan/kesimpulan atau pencarian yang berbasis eksperimentasi yang dilibatkan; yang artinya bahwa, itu bukanlah suatu hal yang mudah seperti komputasi terhadap suatu kuantitas yang sudah ditetapkan sebelumnya
  • Valid: artinya bahwa pola-pola yang ditemukan seharusnya tetap benar bila diterapkan pada data yang baru dengan tingkat kepastian yang tinggi
  • Baru: artinya bahwa pola-pola tidaklah diketahui sebelumnya oleh pengguna dalam konteks sistem yang sedang dianalisa
  • Berpotensi bermanfaat: artinya adalah bahwa pola-pola yang ditemukan harus membawa manfaat bagi pengguna atau pada pekerjaan
  • Dapat dipahami: artinya bahwa pola harus masuk akal secara bisnis yang membuat pengguna berkata “mmmm! Ini masuk akal; mengapa saya tidak memikirkan hal itu” .

Data mining bukanlah disiplin ilmu baru, tetapi lebih pada definisi yang baru untuk pemanfaatan banyak disiplin ilmu. Data mining diposisikan erat di irisan berbagai disiplin ilmu, termasuk statistik, artificial intelligence (kecerdasan buatan), machine learning, management science, information systems (sistem informasi), dan database. Lihat gambar di bawah ini:

Dengan menggunakan perkembangan di semua disiplin itu, data mining berusaha membuat perkembangan dalam mengekstrak informasi dan knowledge dari database yang besar.  Ini adalah bidang ilmu yang muncul ke permukaan dan menarik banyak perhatian dalam waktu yang singkat.

Berikut adalah karakteristik utama dan tujuan dari data mining:

  • Data seringkali terkubur dalam database yang sangat besar, yang terkadang berisi data selama bertahun-tahun. Dalam banyak kasus, data dibersihkan dan disatukan ke dalam data warehouse.
  • Environment data mining pada umumnya adalah arsitektur client-server atau arsitektur sistem informasi berbasis web.
  • Berbagai tool baru yang canggih, termasuk berbagai tool visualisasi yang canggih, membantu untuk mengangkat biji informasi yang terkubur dalam file-file korporat atau record-record arsip. Untuk mendapatkannya akan melibatkan memoles dan mensinkronisasikan data untuk mendapatkan hasil-hasil yang tepat. Data miners yang mutakhir juga memeriksa kemanfaatan data (misalnya, teks yang tak terstruktur yang disimpan dalam tempat-tempat seperti database Lotus Notes, file-file teks di internet, atau intranet korporat).
  • Si penambang seringkali adalah end-user, yang didukung dengan ‘bor-bor data’ dan berbagai tool query handal lainnya untuk menanyakan pertanyaan-pertanyaan dengan tujuan tertentu dan mendapatkan jawaban-jawaban dengan cepat, dengan sedikit atau bahkan tanpa skill pemrograman sekalipun.
  • Dalam menemukan pola seringkali menemukan hasil yang tak diharapkan dan meminta end-user untuk berpikir secara kreatif dalam menjalankan proses, termasuk interpretasi terhadap temuan.
  • Banyak tool data mining siap dikombinasikan dengan berbagai spreadsheet dan tool development software lainnya. Jadi,  data yang ditambang bisa dianalisa dan diterapkan dengan cepat dan mudah.
  • Karena jumlah data yang sangat besar dan usaha pencarian yang massif, kadang-kadang perlu menggunakan pemrosesan parallel untuk data mining.

Perusahaan yang secara efektif memanfaatkan tool-tool dan teknologi data mining bisa mendapatkan dan mempertahankan  keunggulan kompetitif strategis. Data mining  menawarkan perusahaan suatu environment yang sangat diperlukan untuk meningkatkan keputusan untuk memanfaatkan peluang-peluang baru dengan mentransformasikan data menjadi senjata yang strategis.
 

Sumber: binus.ac.id

Selengkapnya
Definisi Menggali Pengetahuan dengan Data Mining

Teknik Industri

Analisis Data Eksplorasi (EDA): Pendekatan, Sejarah, dan Implikasinya dalam Statistik

Dipublikasikan oleh Muhammad Ilham Maulana pada 15 April 2024


Analisis Data Eksplorasi (EDA) adalah pendekatan penting dalam statistik, yang berfokus pada menggali lebih dalam kumpulan data untuk mengungkap karakteristik utamanya menggunakan berbagai grafik statistik dan metode visualisasi. Meskipun mungkin melibatkan penggunaan model statistik atau tidak, EDA terutama bertujuan untuk mengekstraksi wawasan dari data di luar pemodelan formal, sehingga menawarkan permulaan dari pengujian hipotesis konvensional.

Awalnya diperjuangkan oleh John Tukey sejak tahun 1970an, EDA mendorong para ahli statistik untuk mengeksplorasi data secara menyeluruh, yang berpotensi mengarah pada perumusan hipotesis untuk pengumpulan dan eksperimen data lebih lanjut. Hal ini berbeda dengan Analisis Data Awal (IDA), yang berkonsentrasi lebih sempit pada verifikasi asumsi untuk penyesuaian model dan pengujian hipotesis, serta mengelola nilai yang hilang dan transformasi variabel jika diperlukan. Intinya, EDA mencakup IDA dalam cakupannya yang lebih luas.

Visi Tukey tentang analisis data, yang dimulai pada tahun 1961, menggarisbawahi pentingnya prosedur untuk menganalisis data, menafsirkan hasil, merencanakan pengumpulan data, dan menggunakan teknik statistik untuk meningkatkan presisi dan akurasi analisis. Analisis Data Eksplorasi menawarkan teknik komprehensif untuk meneliti dan memahami karakteristik kumpulan data. Keuntungan signifikannya terletak pada penyediaan representasi visual data pasca-analisis.

Advokasi Tukey untuk EDA mendorong kemajuan dalam komputasi statistik, terutama pengembangan bahasa pemrograman S di Bell Labs. Hal ini mengarah pada terciptanya lingkungan komputasi statistik seperti S-PLUS dan R, yang menawarkan kemampuan visualisasi dinamis yang ditingkatkan. Kemampuan ini memungkinkan ahli statistik untuk mengidentifikasi outlier, tren, dan pola yang memerlukan penyelidikan lebih lanjut.

EDA terkait erat dengan statistik kuat dan statistik nonparametrik, yang bertujuan mengurangi sensitivitas kesimpulan statistik terhadap kesalahan formulasi model. Preferensi Tukey untuk meringkas data numerik menggunakan ringkasan lima angka (minimum, maksimum, median, kuartil) menyoroti ketahanannya terhadap distribusi yang miring atau berekor berat dibandingkan dengan ukuran ringkasan tradisional seperti mean dan deviasi standar.

Integrasi EDA, statistik yang kuat, statistik nonparametrik, dan bahasa pemrograman statistik memfasilitasi pekerjaan para ahli statistik dalam berbagai tantangan ilmiah dan teknik, termasuk fabrikasi semikonduktor dan jaringan komunikasi. Perkembangan statistik ini, yang didorong oleh advokasi Tukey, melengkapi pendekatan pengujian hipotesis statistik tradisional, sehingga membuka jalan bagi pemahaman yang lebih komprehensif tentang kumpulan data yang kompleks.

Pengembangan EDA

Buku "Exploratory Data Analysis" ditulis oleh John W. Tukey pada tahun 1977. Tukey berpendapat bahwa terlalu banyak penekanan dalam statistik ditempatkan pada pengujian hipotesis statistik (analisis data konfirmatif); lebih banyak penekanan diperlukan pada penggunaan data untuk menyarankan hipotesis yang akan diuji. Secara khusus, dia berpendapat bahwa kebingungan antara dua jenis analisis dan penggunaannya pada satu set data yang sama dapat menyebabkan bias sistematis karena masalah yang melekat dalam pengujian hipotesis yang diusulkan oleh data.

Tujuan dari EDA adalah untuk:

  • Memungkinkan penemuan yang tidak terduga dalam data
  • Menyarankan hipotesis tentang penyebab fenomena yang diamati
  • Menilai asumsi yang akan menjadi dasar inferensi statistik
  • Mendukung pemilihan alat dan teknik statistik yang tepat
  • Memberikan dasar untuk pengumpulan data lebih lanjut melalui survei atau eksperimen.

Banyak teknik EDA telah diadopsi ke dalam penambangan data. Mereka juga diajarkan kepada siswa muda sebagai cara untuk memperkenalkan mereka pada pemikiran statistik. Ada juga sejumlah alat yang berguna untuk EDA, tetapi EDA lebih ditandai oleh sikap yang diambil daripada teknik tertentu.

Teknik grafis yang umum digunakan dalam EDA adalah: 

  • Box plot 
  • Histogram 
  • Multi-vari chart 
  • Run chart 
  • Pareto chart 
  • Scatter plot (2D/3D) 
  • Stem-and-leaf plot 
  • Koordinat paralel 
  • Rasio odds 
  • Pencarian proyeksi yang ditargetkan
  • Peta panas
  • Bar chart
  • Grafik horison
  • Metode visualisasi berbasis glif seperti PhenoPlot dan Chernoff faces
  • Metode proyeksi seperti tur besar, tur terpandu, dan tur manual
  • Versi interaktif dari plot 

Reduksi Dimensi:

  • Pengurangan Dimensi Majemuk
  • Analisis Komponen Utama (PCA) 
  • PCA multilinear 
  • Reduksi dimensi nonlinear (NLDR) 
  • Ikonografi korelasi

Teknik kuantitatif yang umum adalah:

  • Median polish
  • Trimean
  • Ordinasi

Sejarah EDA

Banyak gagasan EDA dapat ditelusuri kembali ke penulis sebelumnya, misalnya: • Francis Galton menekankan pada statistik urutan dan kuantil. • Arthur Lyon Bowley menggunakan pendahulu dari stemplot dan ringkasan lima angka (Bowley sebenarnya menggunakan "ringkasan tujuh angka", termasuk ekstremum, desil dan kuartil, bersama dengan median). • Andrew Ehrenberg merumuskan filosofi reduksi data.

Kursus Open University "Statistics in Society (MDST 242)" mengambil gagasan di atas dan menggabungkannya dengan karya Gottfried Noether, yang memperkenalkan inferensi statistik melalui pelemparan koin dan uji median.


Disadur dari: en.wikipedia.org 

Selengkapnya
Analisis Data Eksplorasi (EDA): Pendekatan, Sejarah, dan Implikasinya dalam Statistik

Teknik Industri

Menjelajahi Pengenalan Pola (Pattern Recognition): Dari Dasar hingga Aplikasi Praktis

Dipublikasikan oleh Muhammad Ilham Maulana pada 15 April 2024


Pengenalan pola muncul sebagai seni mengalokasikan kelas ke pengamatan, dilihat dari pola data yang diekstraksi. Namun, hal ini berbeda dari pattern machines (PM), yang, meskipun berpotensi dilengkapi dengan kemampuan serupa, terutama berfungsi untuk membedakan dan menghasilkan pola yang muncul. Dengan aplikasi yang mencakup analisis data statistik, pemrosesan sinyal, dan lainnya, pengenalan pola berakar pada statistik dan rekayasa.

Secara tradisional, sistem pengenalan pola disempurnakan menggunakan data berlabel "pelatihan". Namun, jika tidak ada, algoritme alternatif mengungkap pola laten, menyelaraskan lebih dekat dengan ranah KDD dan penambangan data. Berakar pada teknik, pengenalan pola menggali bidang visi komputer, dengan acara-acara terkemuka seperti Konferensi Visi Komputer dan Pengenalan Pola menjadi bukti pengaruhnya.

Dalam domain pembelajaran mesin, pengenalan pola memerlukan penetapan label ke nilai input. Misalnya, klasifikasi berupaya mengalokasikan setiap masukan ke kelas yang telah ditentukan sebelumnya, seperti membedakan email "spam". Di luar klasifikasi, ini meluas ke regresi, pelabelan urutan, dan penguraian, masing-masing menangani jenis keluaran yang unik.

Algoritme pengenalan pola berusaha keras untuk memberikan respons yang masuk akal di berbagai masukan, memprioritaskan kecocokan yang "paling mungkin" sambil mempertimbangkan varian statistik. Berbeda dengan algoritma pencocokan pola, yang mencari kecocokan yang tepat, pengenalan pola berupaya untuk membedakan pola lagi, mirip dengan pengrajin terampil yang membuat desain rumit dalam kanvas data yang luas.

Ringkasan Pengenalan Pola

Dalam bidang pembelajaran mesin yang luas, pengenalan pola merupakan disiplin fundamental yang didedikasikan untuk penemuan otomatis keteraturan dan struktur dalam data melalui penggunaan algoritma komputer yang canggih. Bidang ini didorong oleh tujuan yang mendalam: untuk memanfaatkan pola yang melekat dalam data dan memanfaatkannya untuk melakukan tugas-tugas seperti mengklasifikasikan instance ke dalam kategori yang berbeda, memungkinkan mesin untuk membuat keputusan yang tepat dan mengungkap wawasan yang tersembunyi.

Pada intinya, pengenalan pola dikategorikan berdasarkan prosedur pembelajaran yang digunakan untuk menghasilkan nilai keluaran. Pembelajaran yang diawasi, sebuah pendekatan yang diadopsi secara luas, bergantung pada rangkaian pelatihan yang dikurasi dengan cermat – kumpulan contoh yang telah diberi label dengan cermat oleh pakar manusia. Data pelatihan ini berfungsi sebagai landasan bagi algoritma pembelajaran untuk membangun sebuah model, memberikan keseimbangan antara secara akurat menangkap pola dalam set pelatihan dan menggeneralisasi secara efektif ke contoh data baru yang belum terlihat.

Sebaliknya, pembelajaran tanpa pengawasan beroperasi tanpa kemewahan data pelatihan berlabel. Sebaliknya, pendekatan ini berupaya untuk mengungkap pola dan struktur inheren yang tersembunyi di dalam data itu sendiri, yang kemudian memungkinkan klasifikasi atau pengelompokan kejadian baru yang benar berdasarkan persamaan atau ketidaksamaan yang melekat pada data tersebut.

Di luar dua paradigma mendasar ini, para peneliti telah mengeksplorasi bidang pembelajaran semi-supervisi yang menarik, yang secara harmonis menggabungkan kekuatan data berlabel dan tidak berlabel, memanfaatkan yang terbaik dari kedua dunia tersebut untuk meningkatkan akurasi dan ketahanan proses pembelajaran.

  • Pengklasifikasi Probabilistik

Algoritme pengenalan pola sering kali mengadopsi pendekatan probabilistik, menggunakan inferensi statistik untuk menentukan label atau kategori yang paling mungkin untuk suatu kejadian tertentu. Algoritme ini tidak hanya menghasilkan label "terbaik" namun juga memberikan ukuran keyakinan, yang didasarkan pada teori probabilitas, menawarkan wawasan berharga dalam proses pengambilan keputusan. Sifat probabilistik ini memberikan banyak keuntungan, termasuk kemampuan untuk abstain ketika tingkat kepercayaan terlalu rendah, integrasi yang lancar ke dalam tugas pembelajaran mesin yang lebih besar, dan mitigasi penyebaran kesalahan.

Inti dari pengenalan pola terletak pada konsep vektor fitur – representasi multidimensi yang merangkum karakteristik penting dari setiap contoh. Vektor-vektor ini dapat dimanipulasi menggunakan teknik matematika yang canggih, seperti menghitung perkalian titik atau sudut antar vektor, mengungkap hubungan rumit dan persamaan yang mendasari proses pengambilan keputusan.

  • Jumlah Variabel Fitur Penting

Untuk meningkatkan efektivitas algoritme pengenalan pola, peneliti menggunakan berbagai teknik, termasuk algoritme pemilihan fitur yang memangkas fitur-fitur yang berlebihan atau tidak relevan, dan algoritme ekstraksi fitur yang mengubah vektor fitur berdimensi tinggi menjadi representasi berdimensi lebih rendah, sehingga mengurangi redundansi dan kompleksitas komputasi. .

Dalam lanskap pembelajaran mesin yang terus berkembang, pengenalan pola merupakan disiplin ilmu utama yang memberdayakan mesin untuk membedakan keteraturan dan kekacauan, mengungkap wawasan tersembunyi, dan membuat keputusan yang tepat di berbagai bidang. Saat kita terus mendorong batas-batas kecerdasan buatan, bidang pengenalan pola tidak diragukan lagi akan memainkan peran penting dalam membentuk masa depan sistem cerdas dan kemampuannya untuk menavigasi kompleksitas dunia di sekitar kita.

Memahami Pengenalan Pola: Pendekatan Frekuensitas vs. Bayes

Pengenalan pola menjadi inti dari berbagai teknologi modern, mulai dari filter spam dalam surel hingga perangkat lunak pengenalan wajah. Pada dasarnya, tujuannya adalah untuk memetakan instansi masukan ke label keluaran berdasarkan data yang ada. Namun, pendekatan untuk mencapai hal ini bervariasi secara signifikan, dengan dua metodologi utama: pendekatan frekuensitas dan Bayes.

  • Pernyataan Masalah

Dalam pengenalan pola, kita bertujuan untuk mendekati sebuah fungsi tidak diketahui g:X→Y, yang memetakan instansi masukan x∈X ke label keluaran y∈Y. Ini biasanya berdasarkan kumpulan data pelatihan D={(x1,y1),…,(xn,yn)}, di mana setiap pasangan mewakili contoh akurat dari pemetaan. Tantangannya adalah untuk menghasilkan sebuah fungsi h:X→Y, yang mendekati dengan baik pemetaan yang benar gg. Ini melibatkan definisi fungsi kerugian yang mengkuantifikasi perbedaan antara label yang diprediksi dan sebenarnya. Tujuannya kemudian adalah untuk meminimalkan kerugian yang diharapkan atas distribusi probabilitas dari X.

  • Pendekatan Frekuensitas

Pendekatan frekuensitas memperlakukan parameter model sebagai tidak diketahui tetapi objektif, mengestimasikannya dari data yang dikumpulkan. Misalnya, dalam analisis diskriminan linear, parameter seperti vektor rata-rata dan matriks kovariansi dihitung dari data. Probabilitas kelas, p(label∣θ)p(label∣θ), juga diestimasi secara empiris dari kumpulan data. Meskipun menggunakan aturan Bayes dalam klasifikasi frekuensitas, metodologi itu sendiri tetap berbeda dari inferensi Bayes.

  • Pendekatan Bayes

Statistik Bayes berasal dari membedakan antara pengetahuan 'a priori' dan 'a posteriori', seperti yang dijelaskan dalam filsafat Yunani dan kemudian oleh Kant. Dalam pengklasifikasi pola Bayes, pengguna dapat menentukan probabilitas kelas sebelumnya, p(label∣θ), berdasarkan kepercayaan subjektif mereka. Prioritas ini kemudian dapat digabungkan dengan pengamatan empiris menggunakan distribusi seperti distribusi Beta dan Dirichlet, memungkinkan integrasi yang mulus antara pengetahuan ahli dan data objektif.

  • Memilih Antara Pendekatan

Pengklasifikasi pola probabilistik dapat beroperasi dalam kerangka baik frekuensitas maupun Bayes. Sementara pendekatan frekuensitas bergantung pada estimasi objektif parameter model dan probabilitas kelas dari data, pendekatan Bayes memungkinkan untuk menggabungkan prioritas subjektif bersama pengamatan empiris.

Pengenalan Pola: Aplikasi Luas dalam Berbagai Bidang

Pola pengenalan memainkan peran krusial dalam berbagai bidang, terutama dalam ilmu kedokteran di mana sistem diagnosis berbantu komputer (CAD) menggunakan teknologi ini. Selain itu, aplikasi pola pengenalan meluas ke pengenalan ucapan, identifikasi pembicara, klasifikasi teks, dan bahkan pengenalan gambar wajah manusia. Seiring perkembangan teknologi, penggunaan pola pengenalan juga diterapkan dalam pengenalan karakter optik dan ekstraksi informasi dari gambar medis.

Dalam aplikasi praktis, teknologi ini digunakan dalam identifikasi dan otentikasi, seperti pengenalan plat nomor kendaraan, analisis sidik jari, dan deteksi wajah. Di bidang medis, pola pengenalan digunakan untuk skrining kanker, deteksi tumor, dan analisis suara jantung. Tak hanya itu, dalam pertahanan, teknologi ini dimanfaatkan dalam sistem navigasi, pengenalan target, dan teknologi pengenalan bentuk.

Pentingnya pola pengenalan juga terasa dalam mobilitas, dengan sistem bantuan pengemudi canggih dan teknologi kendaraan otonom yang mengandalkan prinsip ini. Di bidang psikologi, pengenalan pola membantu dalam memahami bagaimana manusia mengidentifikasi objek dan memberikan makna terhadapnya. Dari diagnosa medis hingga keamanan dan mobilitas, pola pengenalan menjadi landasan teknologi modern yang mendorong inovasi dan kemajuan di berbagai bidang kehidupan.

Algoritma Pengenalan Pola

Algoritma pengenalan pola bergantung pada jenis keluaran label, apakah pembelajaran diawasi atau tidak, dan apakah algoritma tersebut bersifat statistik atau non-statistik. Algoritma statistik dapat diklasifikasikan sebagai generatif atau diskriminatif.

Metode klasifikasi (metode memprediksi label kategorikal)

Parametrik:

  •      Analisis diskriminan linier
  •      Analisis diskriminan kuadrat
  •      Pengklasifikasi entropi maksimum (alias regresi logistik, regresi logistik multinomial): Perhatikan bahwa regresi logistik adalah algoritma untuk klasifikasi, terlepas dari namanya. (Nama ini berasal dari fakta bahwa regresi logistik menggunakan perluasan model regresi linier untuk memodelkan probabilitas suatu masukan berada di kelas tertentu.)

Nonparametrik:

  •      Pohon keputusan, daftar keputusan
  •      Estimasi kernel dan algoritma K-nearest-neighbor
  •      Pengklasifikasi Naive Bayes
  •      Jaringan saraf (perceptron multi-layer)
  •      Perceptron
  •      Mendukung mesin vektor
  •      Pemrograman ekspresi gen

Metode clustering (metode untuk mengklasifikasikan dan memprediksi label kategorikal)

  •      Model campuran kategorikal
  •      Pengelompokan hierarki (aglomeratif atau memecah belah)
  •      Pengelompokan K-means
  •      Pengelompokan korelasi
  •      Analisis komponen utama kernel (Kernel PCA)

Algoritma pembelajaran ansambel (meta-algoritma yang diawasi untuk menggabungkan beberapa algoritma pembelajaran bersama-sama)

  •      Peningkatan (meta-algoritma)
  •      Agregasi bootstrap ("mengantongi")
  •      Rata-rata ansambel
  •      Campuran para ahli, campuran hierarki para ahli

Metode umum untuk memprediksi label (kumpulan) yang terstruktur secara sewenang-wenang

  •      Jaringan Bayesian
  •      Bidang acak Markov
  •      Algoritma pembelajaran subruang multilinear (memprediksi label data multidimensi menggunakan representasi tensor)

Tidak diawasi:

  •      Analisis komponen utama multilinear (MPCA)

Metode pelabelan urutan bernilai nyata (memprediksi urutan label bernilai nyata)

  •      Filter Kalman
  •      Filter partikel

Metode regresi (memprediksi label bernilai nyata)

  •      Regresi proses Gaussian (kriging)
  •      Regresi dan ekstensi linier
  •      Analisis komponen independen (ICA)
  •      Analisis komponen utama (PCA)

Metode pelabelan urutan (memprediksi urutan label kategorikal)

  •      Bidang acak bersyarat (CRF)
  •      Model Markov Tersembunyi (HMM)
  •      Model Markov entropi maksimum (MEMM)
  •      Jaringan saraf berulang (RNN)
  •      Pembengkokan waktu dinamis (DTW)

 

Disadur dari: en.wikipedia.org/wkipedia.org

Selengkapnya
Menjelajahi Pengenalan Pola (Pattern Recognition): Dari Dasar hingga Aplikasi Praktis
« First Previous page 67 of 73 Next Last »