diklatkerja

Data Science Terapan

Meningkatkan Prediktif Maintenance dengan Weakly Supervised Learning dan Balanced Random Forest di Kapal Hibrida

Dipublikasikan oleh Anjas Mifta Huda pada 06 Agustus 2025

Tantangan PdM di Dunia Nyata

Predictive Maintenance (PdM) telah menjadi elemen penting dalam mendukung keberlanjutan dan efisiensi industri, khususnya di era Industry 4.0. Namun, PdM memiliki tantangan besar, terutama saat diterapkan pada sistem kompleks seperti kapal hibrida yang menggunakan Electric Propulsion System (EPS). Salah satu tantangan utama adalah kurangnya data failure yang berkualitas, label yang tidak akurat, dan ketidakseimbangan data antara kondisi normal dan kondisi gangguan.

Tesis ini menyajikan pendekatan cerdas dengan Weakly Supervised Learning (WSL) berbasis Multiple Instance Learning (MIL) yang digabungkan dengan Balanced Random Forest (BRF). Penelitian ini berangkat dari data event-log nyata dari empat kapal komersial milik ABB. Dengan data tersebut, Kristensen menunjukkan bahwa solusi PdM bisa tetap efektif meskipun dengan keterbatasan label dan data minoritas yang sangat kecil.

💡 Konsep Utama: Memadukan MIL dan BRF untuk Menangani Data Lemah dan Tidak Seimbang

Apa Itu Multiple Instance Learning (MIL)?

Multiple Instance Learning (MIL) adalah metode pembelajaran mesin di mana data dikelompokkan dalam “bags” (kantong data), dan label hanya diberikan pada tingkat kantong, bukan individu data. Dalam konteks PdM, satu kantong mewakili sejumlah data operasional dalam jendela waktu sebelum kegagalan terjadi. Tujuannya adalah untuk menemukan minimal satu titik data dalam kantong tersebut yang memang menjadi pemicu kegagalan.

Kelebihan MIL adalah kemampuannya menangani data yang hanya diketahui “kurang lebih” kapan gagalnya, tetapi tidak tahu pasti penyebab pastinya. Inilah kondisi riil di dunia industri, khususnya pada kapal EPS yang sistemnya kompleks dan padat sensor.

Balanced Random Forest (BRF): Solusi Data Tidak Seimbang

Sementara itu, Balanced Random Forest (BRF) adalah variasi dari algoritma Random Forest yang mampu menangani ketidakseimbangan kelas ekstrem. BRF bekerja dengan undersampling kelas mayoritas dan menyamakan distribusinya dengan kelas minoritas, tanpa perlu banyak parameter tambahan seperti pada Weighted Random Forest (WRF).

Metode ini sangat penting karena dalam PdM, jumlah data normal bisa ribuan kali lebih banyak daripada data gangguan. Jika menggunakan RF biasa, model akan cenderung mengabaikan kegagalan karena kelasnya terlalu minoritas.

Gabungan Keduanya: MIL-B-RF

Dalam tesis ini, Kristensen menggabungkan dua teknik tersebut menjadi MIL-B-RF (Multiple Instance Learning through Balanced Random Forest), yang menyasar dua masalah besar sekaligus: label yang lemah (weak labels) dan data yang timpang (imbalanced data).

🧪 Data dan Proses Eksperimen

Penelitian ini menggunakan event-log dari empat kapal hybrid dengan periode data pelatihan dan pengujian sebagai berikut:

Vessel

Rentang Training

Rentang Testing

Failure Training

Failure Testing

420 hari

217 hari

591 hari

99 hari

554 hari

143 hari

436 hari

238 hari

Setiap kantong berisi data operasional selama 3 hari sebelum failure. Data ini kemudian diproses menggunakan teknik window aggregation dan random indexing untuk menghasilkan ribuan fitur numerik, yang digunakan dalam model MIL-B-RF.

📈 Hasil Temuan dan Analisis Kinerja Model

Hasil Klasifikasi (Confusion Matrix)

Pengujian MIL-B-RF menunjukkan hasil cukup memuaskan:

True Positive Rate (TPR): 94.4% – 100%
False Positive Rate (FPR): 1.0% – 6.3%

Sebagai contoh, berikut adalah confusion matrix untuk vessel 1:

Pred: 0

Pred: 1

Actual: 0

28.333

281

Actual: 1

Namun, meskipun TPR-nya tinggi, rasio positif prediksi yang benar (precision) masih rendah. Untuk vessel 1, hanya sekitar 5.7% prediksi positif yang benar-benar berujung pada kegagalan nyata.

Time-to-Failure Regression

Model regresi RF juga diuji untuk memprediksi berapa jam sebelum failure akan terjadi. Namun, akurasi masih rendah dan model cenderung terlalu optimistis, memprediksi failure akan terjadi lebih lambat dari kenyataan.

⚖️ Analisis Fitur: Mana yang Paling Penting?

Tesis ini juga menilai pentingnya fitur yang digunakan:

Dari lebih dari 10.000 fitur, hanya sebagian kecil yang signifikan.
Fitur berdasarkan nilai maksimum dan rata-rata lebih penting dibanding minimum.
Fitur yang dihasilkan oleh metode Random Indexing (RI) memiliki kontribusi besar dalam prediksi tetapi kurang interpretatif dibanding window aggregation.

🤖 Perbandingan Model: Mana yang Lebih Baik?

Kristensen menguji empat varian model:

M0: Semua fitur (baseline terbaik)
M1: Hanya fitur window aggregation
M2: Hanya fitur RI
M3: Hanya fitur aggregation maksimum

Hasilnya:

M0 memberikan hasil terbaik secara keseluruhan (TPR tinggi + FPR rendah).
M2 cukup akurat tapi kurang interpretatif.
M1 dan M3 lebih mudah dijelaskan namun performa lebih rendah.

🧠 Opini dan Kritik: Relevansi dan Keterbatasan Nyata

💬 Kekuatan:

Inovatif dan praktis untuk skenario dengan data terbatas dan label lemah.
Model MIL-B-RF sangat aplikatif pada lingkungan industri yang datanya “setengah jadi”.

⚠️ Kelemahan:

Precision rendah: hanya 1 dari 18 prediksi positif yang benar-benar berujung kegagalan.
Belum layak untuk implementasi langsung dalam strategi PdM nyata tanpa peningkatan precision.
Masih banyak false positive, yang dalam konteks kapal bisa berujung pada biaya operasional yang tidak perlu.

🔭 Rekomendasi Penelitian Lanjutan

Tesis ini menyarankan beberapa arah eksplorasi masa depan:

Gabungkan sinyal sensor kontinu (bukan hanya event-log) untuk membentuk model hibrida yang lebih akurat.
Tuning hyperparameter menggunakan validasi silang (cross-validation) jika tersedia cukup data failure.
Eksplorasi model lain seperti Support Vector Machine (SVM), Gradient Boosted Trees, atau Neural Networks.
Pertimbangkan waktu antar-failure yang berdekatan agar tidak menghitung satu kejadian dua kali.
Eksperimen pada sistem industri lain seperti pabrik manufaktur atau kendaraan otonom.

📎 Referensi dan Kredibilitas

Penelitian ini adalah bagian dari tesis Master’s Program in Data Science, Department of Mathematics, University of Oslo, dengan data real dari ABB. Paper ini dapat diakses melalui sumber resmi berikut:

DOI (jika tersedia): Tidak disediakan dalam dokumen.
Sumber resmi: [University of Oslo Repository (Jika tersedia)] atau melalui permintaan langsung ke penulis: Nicolay Bjørlo Kristensen (2021).

🧩 Kesimpulan: Solusi Menjanjikan, Tapi Masih Perlu Diasah

Tesis ini membuktikan bahwa dengan teknik pembelajaran mesin yang cerdas, seperti MIL-B-RF, Predictive Maintenance tetap bisa diimplementasikan meski data yang tersedia tidak ideal. Meskipun belum sepenuhnya layak digunakan dalam skenario operasional nyata, pendekatan ini membuka jalan bagi strategi PdM yang lebih murah, fleksibel, dan cepat diterapkan.

Dalam dunia nyata, terutama industri maritim dan logistik, temuan ini bisa menjadi dasar awal membangun PdM berbasis machine learning dengan investasi data minimal.

📌 Catatan Akhir:
Jika Anda bekerja di industri dengan data event-log terbatas dan sistem yang kompleks, pendekatan MIL-B-RF bisa menjadi starting point ideal sebelum mengadopsi sistem PdM penuh

Selengkapnya