Dalam dunia pembelajaran mesin, adakalanya kita dihadapkan pada situasi di mana tidak semua data memiliki label. Inilah yang menjadi tantangan dalam paradigma pembelajaran tanpa pengawasan (unsupervised learning). Namun, dengan munculnya model bahasa besar, kebutuhan akan data berlabel dalam jumlah besar menjadi semakin tinggi. Di sinilah peran weak supervision (pengawasan lemah) menjadi relevan.
Weak supervision merupakan paradigma pembelajaran mesin yang mengombinasikan sedikit data berlabel (yang biasanya digunakan dalam pembelajaran terbimbing/supervised learning) dengan sejumlah besar data tidak berlabel (yang biasanya digunakan dalam pembelajaran tanpa pengawasan/unsupervised learning). Dengan kata lain, nilai output yang diinginkan hanya diberikan untuk sebagian dari data pelatihan. Sisa datanya tidak berlabel atau berlabel secara tidak tepat.
Kecenderungan suatu tugas menggunakan metode yang diawasi vs. tidak diawasi. Nama tugas yang mengangkangi batas lingkaran memang disengaja. Hal ini menunjukkan bahwa pembagian tugas imajinatif klasik (kiri) yang menggunakan metode tanpa pengawasan tidak jelas dalam skema pembelajaran saat ini.
Secara intuitif, weak supervision dapat diibaratkan seperti ujian, di mana data berlabel bertindak sebagai contoh soal yang dijawab oleh guru untuk membantu siswa menyelesaikan soal-soal lain yang belum terjawab (data tidak berlabel). Dalam pengaturan transduktif, soal-soal yang belum terjawab ini bertindak sebagai soal ujian. Sedangkan dalam pengaturan induktif, mereka menjadi soal-soal latihan yang akan membentuk ujian.
Teknis, weak supervision dapat dilihat sebagai melakukan pengelompokan (clustering) dan kemudian memberi label pada kelompok-kelompok tersebut dengan data berlabel, mendorong batas keputusan (decision boundary) menjauh dari wilayah dengan densitas tinggi, atau mempelajari manifold satu dimensi di mana data berada.
Asumsi yang digunakan dalam weak supervision antara lain:
- Asumsi kontinuitas/kelancaran: Titik-titik yang berdekatan cenderung memiliki label yang sama.
- Asumsi kelompok: Data cenderung membentuk kelompok-kelompok diskrit, dan titik dalam kelompok yang sama cenderung memiliki label yang sama.
- Asumsi manifold: Data terletak pada manifold dengan dimensi yang jauh lebih rendah daripada ruang input.
Metode
Beberapa metode yang digunakan dalam weak supervision meliputi model generatif, separasi densitas rendah, regularisasi Laplacian, dan pendekatan heuristik seperti self-training dan co-training.
- Generative Models:
Salah satu pendekatan utama dalam semi-supervised learning adalah menggunakan model generatif. Model ini berusaha untuk memahami distribusi data dari masing-masing kelas. Dengan menggunakan aturan Bayes, probabilitas bahwa suatu data tertentu memiliki label tertentu adalah proporsional terhadap distribusi tersebut. Model generatif ini mengasumsikan distribusi tertentu yang dapat diatur oleh parameter tertentu. Namun, jika asumsi-asumsi tersebut tidak tepat, data yang tidak terlabel dapat mengurangi akurasi solusi, meskipun jika asumsi tersebut benar, data yang tidak terlabel dapat meningkatkan kinerja model.
- Low-Density Separation:
Metode lain yang umum digunakan adalah pemisahan low-density. Salah satu algoritma yang populer adalah Transductive Support Vector Machine (TSVM), yang bertujuan untuk memisahkan data yang tidak terlabel dengan tepat. TSVM memilih batas keputusan yang memiliki margin maksimal terhadap semua data. Selain itu, pendekatan lain seperti Gaussian process models, information regularization, dan entropy minimization juga digunakan dalam konteks ini.
- Laplacian Regularization:
Regulasi Laplacian juga merupakan metode yang umum digunakan dalam semi-supervised learning. Metode ini menggunakan representasi grafik dari data, dimana setiap titik data dihubungkan dengan tetangganya. Tujuannya adalah untuk memaksimalkan kehalusan solusi relatif terhadap manifold data. Graph Laplacian digunakan untuk mendekati regulasi intrinsik.
- Heuristic Approaches:
Beberapa metode dalam semi-supervised learning tidak secara intrinsik dirancang untuk memanfaatkan data yang tidak terlabel, melainkan menggunakan data tersebut dalam kerangka pembelajaran yang terawasi. Salah satunya adalah self-training, dimana model pertama kali dilatih dengan data terlabel, lalu diterapkan pada data yang tidak terlabel untuk menghasilkan lebih banyak data terlabel. Metode lainnya adalah co-training, yang melibatkan beberapa klasifikasi yang dilatih pada fitur yang berbeda.
Solusi Weak supervision
Weak supervision menawarkan solusi yang menjanjikan untuk masalah pembelajaran mesin di mana data berlabel sulit atau mahal untuk diperoleh, tetapi data tidak berlabel tersedia dalam jumlah besar. Dengan mengoptimalkan penggunaan data berlabel dan tidak berlabel, kita dapat meningkatkan kinerja model dan membuka peluang untuk aplikasi yang lebih luas dalam berbagai bidang.
Disadur dari: en.wikipedia.org