Analisis Data Eksplorasi (EDA): Pendekatan, Sejarah, dan Implikasinya dalam Statistik

Dipublikasikan oleh Muhammad Ilham Maulana

15 April 2024, 11.14

Sumber: en.wikipedia.org

Analisis Data Eksplorasi (EDA) adalah pendekatan penting dalam statistik, yang berfokus pada menggali lebih dalam kumpulan data untuk mengungkap karakteristik utamanya menggunakan berbagai grafik statistik dan metode visualisasi. Meskipun mungkin melibatkan penggunaan model statistik atau tidak, EDA terutama bertujuan untuk mengekstraksi wawasan dari data di luar pemodelan formal, sehingga menawarkan permulaan dari pengujian hipotesis konvensional.

Awalnya diperjuangkan oleh John Tukey sejak tahun 1970an, EDA mendorong para ahli statistik untuk mengeksplorasi data secara menyeluruh, yang berpotensi mengarah pada perumusan hipotesis untuk pengumpulan dan eksperimen data lebih lanjut. Hal ini berbeda dengan Analisis Data Awal (IDA), yang berkonsentrasi lebih sempit pada verifikasi asumsi untuk penyesuaian model dan pengujian hipotesis, serta mengelola nilai yang hilang dan transformasi variabel jika diperlukan. Intinya, EDA mencakup IDA dalam cakupannya yang lebih luas.

Visi Tukey tentang analisis data, yang dimulai pada tahun 1961, menggarisbawahi pentingnya prosedur untuk menganalisis data, menafsirkan hasil, merencanakan pengumpulan data, dan menggunakan teknik statistik untuk meningkatkan presisi dan akurasi analisis. Analisis Data Eksplorasi menawarkan teknik komprehensif untuk meneliti dan memahami karakteristik kumpulan data. Keuntungan signifikannya terletak pada penyediaan representasi visual data pasca-analisis.

Advokasi Tukey untuk EDA mendorong kemajuan dalam komputasi statistik, terutama pengembangan bahasa pemrograman S di Bell Labs. Hal ini mengarah pada terciptanya lingkungan komputasi statistik seperti S-PLUS dan R, yang menawarkan kemampuan visualisasi dinamis yang ditingkatkan. Kemampuan ini memungkinkan ahli statistik untuk mengidentifikasi outlier, tren, dan pola yang memerlukan penyelidikan lebih lanjut.

EDA terkait erat dengan statistik kuat dan statistik nonparametrik, yang bertujuan mengurangi sensitivitas kesimpulan statistik terhadap kesalahan formulasi model. Preferensi Tukey untuk meringkas data numerik menggunakan ringkasan lima angka (minimum, maksimum, median, kuartil) menyoroti ketahanannya terhadap distribusi yang miring atau berekor berat dibandingkan dengan ukuran ringkasan tradisional seperti mean dan deviasi standar.

Integrasi EDA, statistik yang kuat, statistik nonparametrik, dan bahasa pemrograman statistik memfasilitasi pekerjaan para ahli statistik dalam berbagai tantangan ilmiah dan teknik, termasuk fabrikasi semikonduktor dan jaringan komunikasi. Perkembangan statistik ini, yang didorong oleh advokasi Tukey, melengkapi pendekatan pengujian hipotesis statistik tradisional, sehingga membuka jalan bagi pemahaman yang lebih komprehensif tentang kumpulan data yang kompleks.

Pengembangan EDA

Buku "Exploratory Data Analysis" ditulis oleh John W. Tukey pada tahun 1977. Tukey berpendapat bahwa terlalu banyak penekanan dalam statistik ditempatkan pada pengujian hipotesis statistik (analisis data konfirmatif); lebih banyak penekanan diperlukan pada penggunaan data untuk menyarankan hipotesis yang akan diuji. Secara khusus, dia berpendapat bahwa kebingungan antara dua jenis analisis dan penggunaannya pada satu set data yang sama dapat menyebabkan bias sistematis karena masalah yang melekat dalam pengujian hipotesis yang diusulkan oleh data.

Tujuan dari EDA adalah untuk:

  • Memungkinkan penemuan yang tidak terduga dalam data
  • Menyarankan hipotesis tentang penyebab fenomena yang diamati
  • Menilai asumsi yang akan menjadi dasar inferensi statistik
  • Mendukung pemilihan alat dan teknik statistik yang tepat
  • Memberikan dasar untuk pengumpulan data lebih lanjut melalui survei atau eksperimen.

Banyak teknik EDA telah diadopsi ke dalam penambangan data. Mereka juga diajarkan kepada siswa muda sebagai cara untuk memperkenalkan mereka pada pemikiran statistik. Ada juga sejumlah alat yang berguna untuk EDA, tetapi EDA lebih ditandai oleh sikap yang diambil daripada teknik tertentu.

Teknik grafis yang umum digunakan dalam EDA adalah: 

  • Box plot 
  • Histogram 
  • Multi-vari chart 
  • Run chart 
  • Pareto chart 
  • Scatter plot (2D/3D) 
  • Stem-and-leaf plot 
  • Koordinat paralel 
  • Rasio odds 
  • Pencarian proyeksi yang ditargetkan
  • Peta panas
  • Bar chart
  • Grafik horison
  • Metode visualisasi berbasis glif seperti PhenoPlot dan Chernoff faces
  • Metode proyeksi seperti tur besar, tur terpandu, dan tur manual
  • Versi interaktif dari plot 

Reduksi Dimensi:

  • Pengurangan Dimensi Majemuk
  • Analisis Komponen Utama (PCA) 
  • PCA multilinear 
  • Reduksi dimensi nonlinear (NLDR) 
  • Ikonografi korelasi

Teknik kuantitatif yang umum adalah:

  • Median polish
  • Trimean
  • Ordinasi

Sejarah EDA

Banyak gagasan EDA dapat ditelusuri kembali ke penulis sebelumnya, misalnya: • Francis Galton menekankan pada statistik urutan dan kuantil. • Arthur Lyon Bowley menggunakan pendahulu dari stemplot dan ringkasan lima angka (Bowley sebenarnya menggunakan "ringkasan tujuh angka", termasuk ekstremum, desil dan kuartil, bersama dengan median). • Andrew Ehrenberg merumuskan filosofi reduksi data.

Kursus Open University "Statistics in Society (MDST 242)" mengambil gagasan di atas dan menggabungkannya dengan karya Gottfried Noether, yang memperkenalkan inferensi statistik melalui pelemparan koin dan uji median.


Disadur dari: en.wikipedia.org