Kualitas Data: Pondasi Utama Kecerdasan Buatan yang Andal

Dipublikasikan oleh Guard Ganesia Wahyuwidayat

05 November 2025, 22.02

Ledakan penggunaan kecerdasan buatan (AI) dalam dunia bisnis telah membawa perubahan besar terhadap cara perusahaan mengambil keputusan, memprediksi tren, dan merancang inovasi. Namun, di balik kemajuan tersebut, muncul satu masalah mendasar yang kerap diabaikan: kualitas data.

Thomas C. Redman dalam Harvard Business Review menegaskan bahwa “AI yang hebat hanya lahir dari data yang hebat.” Sayangnya, sebagian besar organisasi belum menempatkan isu ini sebagai prioritas strategis.

Seperti halnya krisis finansial 2007–2009 yang dipicu oleh data keuangan yang salah dan manipulatif, kegagalan proyek AI hari ini sering bersumber dari data yang tidak akurat, bias, atau tidak lengkap. Dalam konteks ini, good data science + bad data = bad business results menjadi peringatan keras bagi setiap perusahaan yang berambisi mengadopsi AI tanpa fondasi data yang kokoh.

Pelajaran dari Krisis Finansial: Ketika Data Gagal Menjadi Fakta

Kisah kehancuran pasar hipotek di Amerika dua dekade lalu adalah cerminan nyata bagaimana data buruk bisa menjerumuskan sistem global.
Analisis dan algoritma yang digunakan untuk menciptakan produk keuangan seperti mortgage-backed securities sebenarnya sangat canggih. Namun, kesalahan mendasar terletak pada kualitas datanya — mulai dari informasi nasabah yang salah, skor kredit yang keliru, hingga kehilangan dokumen dan ketidakjelasan tanggung jawab antar lembaga keuangan.

Dalam perspektif data science, krisis ini mengajarkan dua hal penting. Pertama, bahkan model terbaik sekalipun tidak dapat menebus kelemahan data. Kedua, kesalahan dalam satu bagian rantai data dapat merusak seluruh sistem keputusan. Redman mengingatkan bahwa hal serupa dapat terjadi pada AI: model yang “berhalusinasi”, salah menilai, atau bias terhadap kelompok tertentu hanyalah gejala dari data yang tidak sehat.

Memahami Masalah: Definisi, Relevansi, dan Representasi Data

Setiap proyek AI seharusnya dimulai dari pemahaman mendalam terhadap masalah yang ingin diselesaikan — bukan dari ketertarikan terhadap teknologi itu sendiri.
Pertanyaan mendasar seperti “Apa yang dimaksud dengan lebih baik?” harus dijawab sebelum model dikembangkan. Apakah “lebih baik” berarti bebas bias, lebih efisien, atau lebih transparan bagi regulator? Jawaban inilah yang menentukan jenis data yang dibutuhkan, standar kualitas yang diterapkan, dan metode yang tepat untuk memprosesnya.

Redman menekankan dua kriteria utama dalam data yang baik:

  1. “Right data” – apakah data tersebut relevan, lengkap, dan representatif terhadap populasi yang ingin dipelajari.

  2. “Data is right” – apakah data itu akurat, bebas duplikasi, dan terdefinisi dengan jelas.

Kegagalan memenuhi kedua aspek ini membuat model tidak hanya salah, tetapi juga berpotensi berbahaya. Contohnya, seorang pasien di AS ditolak mendapatkan resep karena sistem AI salah menafsirkan riwayat hewan peliharaannya sebagai data medis pribadi. Kasus seperti ini menunjukkan betapa pentingnya akurasi, kebersihan, dan konteks data.

Manajemen Data: Dari Tanggung Jawab Proyek ke Strategi Organisasi

Kualitas data bukan hanya urusan teknis, tetapi juga tanggung jawab manajerial. Redman menegaskan bahwa kepemimpinan perusahaan harus berperan aktif dalam memastikan bahwa setiap proyek AI memiliki definisi masalah yang jelas, tim yang kompeten, serta mekanisme kontrol mutu data. Setiap lapisan organisasi perlu memahami bahwa pembersihan data (data cleaning) hanyalah langkah awal; pengawasan kualitas harus dilakukan secara berkelanjutan bahkan setelah model diluncurkan.

Pendekatan yang direkomendasikan adalah “guilty until proven innocent” — mengasumsikan bahwa data tidak benar sampai terbukti sebaliknya. Dengan cara ini, organisasi mendorong budaya skeptisisme sehat terhadap data, sehingga kesalahan dapat ditemukan lebih cepat.

Lebih jauh lagi, tanggung jawab terhadap data tidak boleh hanya diberikan kepada tim IT atau analis, melainkan menjadi bagian dari akuntabilitas setiap unit bisnis. Kualitas data yang baik harus diciptakan dari sumbernya — bukan diperbaiki di hilir.

Mendorong Kualitas ke Hulu: Membangun Data yang Baik Sejak Awal

Dalam praktiknya, banyak perusahaan menghabiskan 30–80% waktu proyek data hanya untuk memperbaiki kesalahan yang muncul di hilir. Redman menganjurkan perubahan paradigma: alih-alih memperbaiki data buruk, organisasi perlu menciptakan data baik sejak awal. Hal ini dapat dilakukan dengan memperkuat kolaborasi antara pembuat data (data creators) dan pengguna data (data customers).

Konsep ini mirip dengan prinsip manajemen mutu di industri manufaktur, di mana setiap proses harus menghasilkan produk yang memenuhi standar sebelum diteruskan ke tahap berikutnya. Dalam konteks AI, itu berarti memastikan data dikumpulkan dengan identitas konsisten, label yang benar, dan metadata yang transparan.

Kualitas data tidak hanya meningkatkan akurasi model, tetapi juga menghemat biaya, mempercepat siklus inovasi, dan memperkuat kepercayaan publik terhadap hasil AI.

Penutup: AI Hebat Dimulai dari Data Hebat

Kecerdasan buatan yang efektif tidak lahir dari algoritma yang rumit, melainkan dari disiplin organisasi terhadap kualitas data. Seperti halnya mesin tidak dapat bekerja tanpa bahan bakar bersih, AI tidak dapat menghasilkan keputusan yang akurat tanpa data yang benar, relevan, dan terkelola dengan baik.

Perusahaan yang ingin sukses di era AI perlu memandang data bukan sekadar aset digital, melainkan sumber daya strategis yang harus dijaga kualitasnya seperti halnya reputasi. Investasi dalam tata kelola data yang kuat bukanlah beban tambahan, tetapi fondasi untuk masa depan organisasi yang cerdas, etis, dan berkelanjutan.

 

Daftar Pustaka

Redman, T. C. (2024). Ensure high-quality data powers your AI. Harvard Business Review, 102(5), 165–179.

Davenport, T. H., & Iansiti, M. (2024). The new rules of AI leadership. Harvard Business Review, 102(5), 81–138.

Brynjolfsson, E., & McAfee, A. (2017). Machine, platform, crowd: Harnessing our digital future. W. W. Norton & Company.

IBM Institute for Business Value. (2023). The state of responsible AI: Governing data and algorithms in the enterprise. New York: IBM.

OECD. (2023). AI, data, and ethics: Building trust in algorithmic systems. Paris: OECD Publishing.

World Economic Forum. (2024). AI governance and data quality for resilient enterprises. Geneva: World Economic Forum.