Solusi Masa Depan untuk Lingkungan Berkelanjutan

Dipublikasikan oleh Viskha Dwi Marcella Nanda

11 April 2025, 08.19

pexels.com

Air bersih adalah kebutuhan dasar manusia, namun kualitas sumber daya air global terus menghadapi ancaman serius akibat aktivitas industri, pertanian, dan urbanisasi yang tidak terkendali. Di India, permasalahan kualitas air mencapai titik kritis, terutama di sungai besar seperti Gangga, Yamuna, dan Godavari. Paper berjudul “Water Quality Prediction Using Machine Learning Models” yang dipublikasikan oleh Astha Sharma dkk. dari Jaypee University of Information Technology, membahas upaya revolusioner dalam memanfaatkan algoritma machine learning untuk mengatasi tantangan ini. Penelitian ini dapat diakses di E3S Web of Conferences.

Mengapa Kualitas Air Perlu Diprediksi dengan Teknologi?

Sebelum membahas lebih jauh tentang teknologi yang digunakan, mari kita telaah latar belakangnya. Menurut Central Pollution Control Board India, tingkat Biochemical Oxygen Demand (BOD)—indikator utama pencemaran organik—di banyak sungai telah melampaui ambang batas aman. Secara tradisional, metode pengujian kualitas air berbasis laboratorium memakan waktu lama, memerlukan biaya besar, dan tidak mampu memberikan informasi secara real-time.

Di sinilah machine learning (ML) masuk sebagai solusi. Algoritma ML dapat memproses data secara otomatis dan cepat untuk mendeteksi potensi pencemaran bahkan sebelum krisis terjadi.

 

Ringkasan Penelitian dan Tujuan

Penelitian ini bertujuan membangun model prediksi kualitas air yang akurat dengan menggunakan tiga algoritma populer:

  • Decision Tree (DT)
  • K-Nearest Neighbor (KNN)
  • Random Forest (RF)

Dataset yang digunakan mencakup parameter penting seperti pH, turbidity (kekeruhan), dissolved oxygen (oksigen terlarut), chloramines, trihalomethanes, dan lainnya. Model dievaluasi berdasarkan kemampuannya dalam memprediksi apakah air layak diminum (potable) atau tidak.

 

Analisis Metodologi: Menggali Lebih Dalam

Dataset dan Pra-pemrosesan Data

Data bersumber dari Kaggle, mencakup 3.276 sampel dengan 9 fitur utama dan satu target output (potability). Salah satu tantangan terbesar adalah banyaknya nilai yang hilang pada variabel-variabel seperti pH (491 nilai hilang) dan sulfate (781 nilai hilang).

Strategi yang diterapkan:

  • Imputasi Mean: Mengisi nilai kosong dengan nilai rata-rata.
  • Penyeimbangan Kelas: Mengingat terdapat ketidakseimbangan data antara air layak dan tidak layak minum, digunakan teknik oversampling dan pengaturan bobot kelas.

Pemisahan Dataset

Dataset dibagi dengan rasio 90:10 untuk training dan testing. Strategi ini dinilai efektif dalam meningkatkan kemampuan model untuk belajar pola kompleks dari data.

 

Evaluasi Algoritma: Mana yang Paling Unggul?

1. Decision Tree (DT)

  • Akurasi: 58,8%
  • Kelebihan: Mudah diinterpretasi, cepat.
  • Kelemahan: Rentan terhadap overfitting, terutama pada dataset kompleks.

Analisis Tambahan: DT sangat tergantung pada keakuratan data training. Dalam skenario kualitas air yang dinamis seperti di India, DT kurang efektif tanpa teknik ensemble atau pruning ketat.

2. K-Nearest Neighbor (KNN)

  • Akurasi: 59,14%
  • Kelebihan: Sederhana dan intuitif.
  • Kelemahan: Kinerja menurun drastis seiring bertambahnya dimensi data (curse of dimensionality), serta pemilihan nilai k sangat krusial.

Kritik Konstruktif: KNN bisa jadi tidak praktis untuk implementasi real-time pada sistem monitoring berbasis sensor yang menghasilkan data dalam jumlah besar.

3. Random Forest (RF)

  • Akurasi: 70,12%
  • Kelebihan: Mengatasi overfitting dengan ensemble learning, tahan terhadap noise dan outliers.
  • Kelemahan: Konsumsi komputasi tinggi.

Studi Kasus: RF digunakan dalam sistem monitoring kualitas air di Sungai Yangtze, Tiongkok, yang berhasil mendeteksi pencemaran industri secara real-time dengan akurasi lebih dari 80%. Hal ini menunjukkan potensi RF sebagai tulang punggung sistem monitoring kualitas air modern.

 

Studi Kasus Global: Implementasi di Dunia Nyata

1. River Water Quality Index di Sungai Mekong, Vietnam

Peneliti menggunakan model Random Forest yang dioptimalkan dan berhasil mengidentifikasi area dengan pencemaran tinggi, mendorong pemerintah setempat membangun lebih banyak instalasi pengolahan limbah.

2. Deep Learning untuk Prediksi Kualitas Air Laut di Jepang

Dengan pendekatan Convolutional Neural Network (CNN), sistem dapat memprediksi penurunan kualitas air akibat tumpahan minyak lebih cepat daripada metode konvensional.

Pembelajaran: Random Forest adalah pilihan yang solid untuk tahap awal, namun integrasi dengan Deep Learning (seperti CNN dan RNN) membuka peluang prediksi spasial-temporal yang lebih akurat.

 

Tantangan dan Keterbatasan Penelitian Ini

  1. Keterbatasan Dataset
    Data yang digunakan hanya mencakup wilayah tertentu dan parameter terbatas. Padahal, variabel lain seperti cuaca, aktivitas industri, dan perubahan iklim juga mempengaruhi kualitas air.
  2. Interpretabilitas Model
    Model ML, khususnya Random Forest, sering dianggap sebagai “black box”. Dalam konteks regulasi lingkungan, transparansi dalam pengambilan keputusan sangat dibutuhkan.
  3. Sumber Daya Komputasi
    Pemrosesan data secara real-time memerlukan infrastruktur komputasi tinggi. Solusi seperti cloud computing dan distributed processing perlu dipertimbangkan.

 

Opini dan Saran Pengembangan ke Depan

1. Kolaborasi Lintas Disiplin

Sinergi antara insinyur sipil, ilmuwan data, dan pembuat kebijakan diperlukan agar teknologi ML benar-benar bermanfaat dalam pengelolaan kualitas air.

2. Integrasi IoT dan Sensor Cerdas

Penggabungan ML dengan Internet of Things (IoT) dapat mempercepat deteksi pencemaran. Misalnya, sensor otomatis di titik-titik rawan polusi yang mengirimkan data real-time ke model prediksi berbasis cloud.

3. Peningkatan Akurasi dengan Gradient Boosting

Peneliti sebaiknya menjajaki model lain seperti Gradient Boosting Machines (GBM) atau XGBoost, yang telah terbukti meningkatkan akurasi prediksi hingga 85% dalam studi kualitas air di Eropa.

 

Relevansi dengan Industri dan Kebijakan Lingkungan di Indonesia

Indonesia menghadapi tantangan serupa, seperti pencemaran Sungai Citarum dan Bengawan Solo. Implementasi model Random Forest untuk prediksi kualitas air dapat membantu pemerintah daerah dalam membuat keputusan berbasis data secara cepat, mencegah krisis kesehatan akibat air tercemar.

Contoh Potensial Implementasi:

  • Sistem peringatan dini pencemaran air di Danau Toba, berbasis ML dan sensor kualitas air.
  • Monitoring kualitas air laut di kawasan industri Batam, yang rentan terhadap limbah pabrik.

 

Kesimpulan: Machine Learning Sebagai Kunci Masa Depan Pengelolaan Air

Paper ini menunjukkan bahwa teknologi machine learning, khususnya Random Forest, memberikan solusi efektif dalam prediksi kualitas air dengan akurasi yang layak untuk pengambilan keputusan nyata. Namun, tantangan tetap ada, mulai dari kebutuhan data yang kaya hingga tuntutan interpretabilitas hasil prediksi.

Highlight Kesimpulan:

  • Akurasi Tertinggi: Random Forest dengan 70,12%
  • Tantangan: Dataset terbatas dan kebutuhan komputasi tinggi
  • Rekomendasi: Integrasi dengan IoT dan model lanjutan seperti XGBoost untuk akurasi lebih baik

 

Sumber Referensi

Efficient Water Quality Prediction Using Supervised Machine Learning (Water, 2019)

Machine Learning Based Marine Water Quality Prediction (Journal of Environmental Management, 2021)