Analisis Klaster: Mengelompokkan Data untuk Temuan Informasi

Dipublikasikan oleh Muhammad Ilham Maulana

02 April 2024, 09.34

Sumber: en.wikipedia.org

Analisis klaster atau clustering adalah tugas untuk mengelompokkan serangkaian objek sedemikian rupa sehingga objek dalam kelompok yang sama (yang disebut klaster) lebih mirip (dalam suatu arti tertentu yang ditentukan oleh analis) satu sama lain daripada dengan yang lain. Ini adalah tugas utama dalam analisis data eksploratori, dan merupakan teknik umum untuk analisis data statistik, digunakan dalam banyak bidang, termasuk pengenalan pola, analisis gambar, pengambilan informasi, bioinformatika, kompresi data, grafika komputer, dan pembelajaran mesin.

Analisis klaster merujuk pada keluarga algoritma dan tugas daripada satu algoritma spesifik. Ini dapat dicapai dengan berbagai algoritma yang berbeda secara signifikan dalam pemahaman mereka tentang apa yang merupakan sebuah klaster dan bagaimana cara menemukannya dengan efisien. Pandangan populer tentang klaster termasuk grup dengan jarak kecil antara anggota klaster, area padat di ruang data, interval, atau distribusi statistik tertentu. Oleh karena itu, pengelompokan dapat dirumuskan sebagai masalah optimasi multi-obyektif. Algoritma pengelompokan yang tepat dan pengaturan parameter (termasuk parameter seperti fungsi jarak yang digunakan, ambang batas kepadatan, atau jumlah klaster yang diharapkan) tergantung pada set data individu dan penggunaan yang dimaksudkan dari hasilnya. Analisis klaster sebagai demikian bukanlah tugas otomatis, tetapi merupakan proses iteratif penemuan pengetahuan atau optimasi multi-obyektif interaktif yang melibatkan percobaan dan kegagalan. Seringkali diperlukan untuk memodifikasi pra-pemrosesan data dan parameter model hingga hasil mencapai properti yang diinginkan.

Selain istilah pengelompokan, ada sejumlah istilah dengan makna yang serupa, termasuk klasifikasi otomatis, taksonomi numerik, botryology (dari bahasa Yunani βότρυς "anggur"), analisis tipe, dan deteksi komunitas. Perbedaan halus seringkali terletak pada penggunaan hasil: sementara dalam penambangan data, kelompok yang dihasilkan menjadi pokok perhatian, dalam klasifikasi otomatis, kekuatan diskriminatif yang dihasilkan menjadi pokok perhatian.

Analisis klaster berasal dari antropologi oleh Driver dan Kroeber pada tahun 1932 dan diperkenalkan ke dalam psikologi oleh Joseph Zubin pada tahun 1938 dan Robert Tryon pada tahun 1939, serta digunakan secara terkenal oleh Cattell mulai tahun 1943 untuk klasifikasi teori ciri dalam psikologi kepribadian.

Algoritma Klaster

Ketika berurusan dengan data, salah satu tugas utama adalah mengelompokkan informasi menjadi kelompok yang bermakna. Hal ini memungkinkan kita untuk menemukan pola, mencari kesamaan, dan mendapatkan wawasan yang berharga. Dalam dunia analisis data, ada banyak algoritma yang digunakan untuk melakukan tugas ini, dan masing-masing memiliki pendekatan yang berbeda. Mari kita lihat beberapa algoritma clustering yang paling populer:

1. Hierarchical Clustering: Algoritma ini berdasarkan pada konsep bahwa objek cenderung lebih terkait dengan objek yang berdekatan daripada dengan objek yang jauh. Algoritma ini menghubungkan objek untuk membentuk klaster berdasarkan jarak mereka. Klaster dapat dijelaskan oleh jarak maksimum yang diperlukan untuk menghubungkan bagian dari klaster tersebut. Klaster ini dapat direpresentasikan dengan menggunakan dendrogram, yang menjelaskan mengapa algoritma ini dikenal sebagai hierarchical clustering.

2. K-Means Clustering: Dalam pendekatan ini, setiap klaster direpresentasikan oleh sebuah vektor pusat. Tujuan dari algoritma ini adalah untuk menemukan pusat klaster dan menetapkan objek ke klaster terdekat, sehingga jarak kuadrat dari klaster diminimalkan. Algoritma ini umumnya menggunakan pendekatan pencarian solusi yang lebih cepat, meskipun hanya menemukan optimum lokal.

3. Fuzzy C-Means: Algoritma ini adalah variasi dari k-means yang memungkinkan untuk penugasan klaster yang lebih fleksibel. Sebagai lawan dari klaster yang keras, di mana setiap objek hanya boleh menjadi bagian dari satu klaster, algoritma ini memungkinkan objek untuk menjadi bagian dari setiap klaster dengan tingkat keanggotaan tertentu.

Setiap algoritma ini memiliki keunggulan dan kelemahan tersendiri, dan pilihan terbaik tergantung pada sifat data dan tujuan analisis. Dengan memahami berbagai pendekatan clustering yang tersedia, Anda dapat membuat keputusan yang lebih baik dalam menganalisis dan memahami data Anda.

Model-based clustering menggunakan pendekatan distribusi probabilitas untuk mengelompokkan data ke dalam campuran distribusi probabilitas. Salah satu metode yang umum digunakan adalah Gaussian mixture models (GMM) yang menggunakan algoritma expectation-maximization. Namun, metode ini rentan terhadap overfitting dan sulit untuk memilih kompleksitas model yang tepat.

Clustering berbasis densitas mengidentifikasi klaster sebagai area dengan kepadatan yang lebih tinggi daripada area lain dalam data set. DBSCAN adalah metode clustering berbasis densitas yang populer, tetapi sering menghasilkan batas klaster yang sewenang-wenang pada data dengan distribusi Gauss tumpang tindih. Mean-shift adalah pendekatan clustering lain yang memindahkan setiap objek ke area padat terdekat dalam data.

Pengembangan terbaru dalam clustering termasuk peningkatan kinerja algoritma yang ada dan pengembangan metode untuk data berdimensi tinggi. Salah satu pendekatan yang digunakan adalah clustering subspace dan clustering korelasi, yang mencari klaster dalam ruang subspace atau berdasarkan korelasi atributnya. Beberapa sistem clustering juga berdasarkan informasi saling mendukung, seperti metrik variasi informasi Marina Meilā dan algoritma genetika untuk optimasi fungsi-fit.

Evaluasi dan Penilaian Custering

Evaluasi hasil clustering merupakan tantangan yang sama sulitnya dengan proses clustering itu sendiri. Pendekatan populer melibatkan evaluasi "internal", "eksternal", "manual" oleh pakar manusia, dan "tidak langsung" dengan mengevaluasi kegunaan clustering dalam aplikasinya yang dimaksud.

Pengukuran evaluasi internal cenderung mewakili fungsi yang dapat dilihat sebagai tujuan clustering itu sendiri. Evaluasi eksternal memiliki masalah serupa: jika kita memiliki label "kebenaran dasar" maka kita tidak perlu melakukan clustering; dan dalam aplikasi praktis, kita biasanya tidak memiliki label semacam itu. Tidak ada pendekatan yang dapat sepenuhnya menilai kualitas sebenarnya dari suatu clustering, namun evaluasi manusia dapat memberikan kontribusi yang berharga, meskipun subjektif.

Meskipun demikian, statistik seperti ini dapat memberikan wawasan yang bermanfaat dalam mengidentifikasi clustering yang buruk, namun evaluasi manusia juga penting untuk dipertimbangkan.


Disadur dari: en.wikipedia.org/wiki/Cluster_analysis