Kekuatan Pembelajaran Aturan Asosiasi (Association Rule Learning)

Dipublikasikan oleh Muhammad Ilham Maulana

03 April 2024, 15.23

Sumber: wikipedia.org

Pembelajaran aturan asosiasi, yang merupakan landasan pembelajaran mesin, menawarkan metode berharga untuk mengungkap hubungan bermakna antar variabel dalam database yang luas. Dengan memanfaatkan ukuran ketertarikan, pendekatan ini bertujuan untuk mengidentifikasi aturan kuat yang menjelaskan hubungan antar item dalam transaksi.

Berasal dari karya Rakesh Agrawal, Tomasz Imieliński, dan Arun Swami, aturan asosiasi awalnya dirancang untuk mengungkap pola data transaksi skala besar yang dikumpulkan oleh sistem point-of-sale (POS) di supermarket. Misalnya, aturan seperti "bawang bombay, kentang ⇒ burger" yang diambil dari data penjualan supermarket menunjukkan bahwa pelanggan yang membeli bawang bombay dan kentang secara bersamaan kemungkinan besar juga akan membeli daging hamburger. Wawasan tersebut sangat berharga untuk memandu strategi pemasaran, memberikan informasi dalam pengambilan keputusan mengenai harga promosi, dan mengoptimalkan penempatan produk.

Selain analisis keranjang pasar, aturan asosiasi dapat diterapkan di berbagai bidang seperti penambangan penggunaan web, deteksi intrusi, produksi berkelanjutan, dan bioinformatika. Berbeda dengan sequence mining, pembelajaran aturan asosiasi tidak memprioritaskan urutan item di dalam atau di seluruh transaksi, melainkan berfokus pada mengidentifikasi asosiasi yang signifikan.

Meskipun pembelajaran aturan asosiasi menawarkan potensi besar untuk mengungkap wawasan, kompleksitas algoritme dan parameternya dapat menimbulkan tantangan bagi individu yang tidak memiliki keahlian dalam penambangan data. Memahami dan menafsirkan banyaknya aturan yang dihasilkan oleh algoritme ini dapat menjadi hal yang sulit tanpa pengetahuan khusus.

Definisi Pembelajaran Aturan Asosiasi

Penambangan aturan asosiasi, sebagaimana yang didefinisikan awal oleh Agrawal, Imieliński, dan Swami, memasuki ranah mengungkapkan hubungan bermakna dalam kumpulan data. Pada intinya, metode ini bertujuan untuk mengidentifikasi pola jika-maka antara berbagai item, memberikan wawasan berharga tentang asosiasi yang ada dalam data transaksional.

Pada dasarnya, penambangan aturan asosiasi dimulai dengan seperangkat atribut biner, disebut sebagai item, yang ditunjukkan sebagai {\displaystyle I=\{i_{1},i_{2},\ldots ,i_{n}\}}. Item-item ini mewakili fitur atau karakteristik yang sedang diteliti dalam kumpulan data. Selanjutnya, basis data {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{m}\}} yang terdiri dari transaksi dibentuk, di mana setiap transaksi berisi identifikasi unik dan subset item dari I.

Aturan dalam konteks penambangan aturan asosiasi digambarkan sebagai implikasi dalam bentuk {\displaystyle X\Rightarrow Y}, di mana X dan Y mewakili subset item dari I. Patut dicatat, sesuai dengan definisi oleh Agrawal, Imieliński, dan Swami, sebuah aturan dibentuk antara sebuah set dan satu item tunggal, dilambangkan sebagai {\displaystyle X\Rightarrow i_{j}}​, di mana {\displaystyle i_{j}\in I}.

Setiap aturan terdiri dari dua set item yang berbeda yang dikenal sebagai itemset: bagian pendahuluan (atau sisi kiri, LHS) dilambangkan sebagai X dan konsekuensi (atau sisi kanan, RHS) dilambangkan sebagai Y. Pendahuluan mewakili item yang ditemukan dalam dataset, sementara konsekuensi menandakan item yang ditemukan ketika digabungkan dengan pendahuluan. Diterjemahkan sebagai "jika X maka Y," pernyataan ini menyiratkan bahwa setiap kali pendahuluan X terjadi dalam dataset, konsekuensi Y kemungkinan akan mengikuti.

Proses:
Aturan asosiasi berasal dari kumpulan item, dibuat dengan menganalisis transaksi untuk pola yang sering terjadi. Proses ini melibatkan penentuan Support (frekuensi kemunculan item) dan Confidence (kemungkinan kebenaran aturan). Metrik lainnya, Peningkatan, membandingkan Keyakinan yang diharapkan dan aktual untuk mengukur signifikansi aturan.

Aplikasi:
Penambangan aturan asosiasi dapat diterapkan di berbagai bidang seperti analisis keranjang pasar, prediksi perilaku pelanggan, dan diagnosis medis. Dengan mengungkap korelasi dan kejadian bersama antar kumpulan data, hal ini membantu dalam pengambilan keputusan dan pengenalan pola, seperti yang terlihat dalam dunia kedokteran yang membantu dokter mendiagnosis pasien dengan menganalisis hubungan gejala.

Tantangan:
Meskipun aturan asosiasi menawarkan wawasan, tantangannya mencakup penyesuaian parameter dan relevansi aturan. Menetapkan ambang batas yang tepat untuk Dukungan dan Keyakinan sangatlah penting, karena terlalu banyak aturan dapat mengurangi kinerja dan kemampuan interpretasi algoritma. Kurangnya pemahaman tentang konsep data mining dapat semakin mempersulit analisis.

Ambang batas:
Ambang batas Dukungan dan Keyakinan sangat penting dalam pembuatan aturan, memastikan pemilihan asosiasi yang bermakna. Dengan menetapkan ambang batas minimum, hanya kumpulan item signifikan yang dipertimbangkan, sehingga meningkatkan relevansi aturan yang ditemukan. Interaksi antara Dukungan dan Keyakinan membantu mengidentifikasi korelasi yang kuat dalam kumpulan data.

Konsep Berguna:
Dukungan mengkuantifikasi frekuensi itemset, sementara Confidence mengukur keakuratan aturan. Lift menilai signifikansi aturan relatif terhadap independensi, sementara Conviction mengevaluasi tingkat kesalahan prediksi aturan. Berbagai ukuran ketertarikan melengkapi Keyakinan, membantu dalam pemilihan aturan.

Algoritma:
Beberapa algoritma memfasilitasi penambangan aturan asosiasi, termasuk Apriori, Eclat, dan FP-Growth. Algoritme ini menggunakan strategi yang berbeda, seperti pembuatan kandidat dan struktur berbasis pohon, untuk mengidentifikasi kumpulan item yang sering digunakan secara efisien dan menghasilkan aturan yang bermakna.

Diagram alir kontrol untuk algoritma Apriori

Jenis lain dari Penambangan Aturan Asosiasi

Penambangan aturan asosiasi adalah teknik penambangan data yang populer yang digunakan untuk mengidentifikasi hubungan antara item dalam kumpulan data yang besar. Salah satu cerita yang paling terkenal tentang association rule mining adalah cerita "bir dan popok", yang merupakan sebuah survei yang dilakukan terhadap para pembeli supermarket yang cenderung membeli popok dan bir secara bersamaan. Namun, kebenaran dari cerita ini masih diperdebatkan, dan sering digunakan sebagai contoh bagaimana asosiasi yang tidak terduga dapat ditemukan dalam data sehari-hari.

Ada beberapa jenis association rule mining, termasuk:

 

  • Aturan Asosiasi Multi-Relasi (MRAR): Aturan-aturan ini melibatkan hubungan tidak langsung antar entitas, seperti "mereka yang tinggal di tempat yang dekat dengan kota yang memiliki tipe iklim lembab dan juga berusia di bawah 20 tahun, maka kondisi kesehatannya baik."
  • Pembelajaran himpunan kontras: Bentuk pembelajaran asosiatif ini menggunakan aturan yang berbeda secara bermakna dalam distribusinya di seluruh himpunan bagian.
  • Pembelajaran kelas berbobot: Jenis pembelajaran asosiatif ini memberikan bobot pada kelas-kelas untuk memberikan fokus pada masalah tertentu yang menjadi perhatian konsumen dari hasil penggalian data.
  • Penemuan pola tingkat tinggi: Teknik ini memfasilitasi penangkapan pola tingkat tinggi atau asosiasi peristiwa yang bersifat intrinsik pada data dunia nyata yang kompleks.
  • Penemuan pola K-optimal: Sebuah alternatif dari pendekatan standar untuk pembelajaran aturan asosiasi, yang mengharuskan setiap pola sering muncul dalam data.
  • Perkiraan penambangan Frequent Itemset: Versi santai dari penambangan Frequent Itemset yang memungkinkan beberapa item di beberapa baris menjadi 0.
  • Taksonomi hirarki Generalized Association Rules (hirarki konsep): Jenis penambangan aturan asosiasi ini menggunakan taksonomi hirarkis untuk mengidentifikasi hubungan antar item.
  • Aturan Asosiasi Kuantitatif: Metode ini digunakan untuk data kategorikal dan kuantitatif.
  • Aturan Asosiasi Data Interval: Metode ini melibatkan partisi data ke dalam interval, seperti rentang usia.
  • Penambangan pola berurutan: Teknik ini menemukan urutan yang umum terjadi pada lebih dari minsup (ambang batas dukungan minimum) urutan dalam basis data urutan, di mana minsup ditetapkan oleh pengguna.
  • Pengelompokan Subruang: Jenis khusus pengelompokan data berdimensi tinggi, berdasarkan properti penutupan ke bawah untuk model pengelompokan tertentu.
  • Warmr: Alat yang memungkinkan pembelajaran aturan asosiasi untuk aturan relasional tingkat pertama.


Disadur dari: en.wikipedia.org