Big data, istilah yang mulai populer sejak tahun 1990-an, mengacu pada kumpulan data yang terlalu besar atau kompleks untuk diolah oleh perangkat lunak aplikasi pengolahan data tradisional. Seiring dengan perkembangan teknologi, jumlah dan kompleksitas data terus meningkat secara eksponensial, menuntut pendekatan yang baru dalam analisis dan pengelolaannya. Analisis big data menawarkan sejumlah tantangan, termasuk dalam hal menangkap, menyimpan, menganalisis, dan membagikan data. Konsep dasar big data awalnya terkait dengan tiga konsep kunci: volume, variasi, dan kecepatan. Namun, keberadaan data yang berkualitas juga menjadi aspek penting, yang dikenal sebagai veracity.
Pertumbuhan non-linear dalam kapasitas penyimpanan informasi digital global dan berkurangnya penyimpanan analog.
Penggunaan istilah "big data" saat ini cenderung merujuk pada penggunaan analitik prediktif, analisis perilaku pengguna, atau metode analisis data canggih lainnya yang mengekstrak nilai dari big data, dan jarang terkait dengan ukuran tertentu dari kumpulan data. Analisis data besar dapat menemukan korelasi baru untuk "mengidentifikasi tren bisnis, mencegah penyakit, memerangi kejahatan, dan sebagainya".
Perkembangan teknologi juga memungkinkan jumlah dan ukuran data yang tersedia untuk berkembang pesat, melalui perangkat seperti perangkat seluler, perangkat Internet of Things, peralatan pemantauan udara, log perangkat lunak, kamera, mikrofon, pembaca radio-frequency identification (RFID), dan jaringan sensor nirkabel.Tantangan utama dalam memproses dan menganalisis big data adalah kemampuan perangkat lunak dan perangkat keras yang digunakan. Relational database management systems dan perangkat lunak statistik sering kali kesulitan dalam memproses dan menganalisis big data. Oleh karena itu, sering diperlukan perangkat lunak yang berjalan secara paralel pada banyak server.
Meskipun definisi big data terus berkembang, konsep tersebut secara umum mengacu pada kumpulan data yang terlalu besar atau kompleks untuk diolah oleh perangkat lunak dan alat tradisional. Pemahaman akan pentingnya big data di era digital saat ini semakin meningkat, dengan perkiraan pertumbuhan pasar big data yang mencapai miliaran dolar. Dibandingkan dengan bisnis intelligence, big data menggunakan analisis matematis, optimisasi, dan statistik induktif untuk mengungkapkan hubungan dan ketergantungan dari kumpulan data besar dengan kepadatan informasi rendah. Ini menawarkan potensi untuk memperoleh wawasan baru, memprediksi hasil, dan mengidentifikasi tren yang mungkin tidak terdeteksi sebelumnya.
Karakteristik Penting Big Data
Big data merupakan istilah yang merujuk pada kumpulan data yang besar dan kompleks, yang mencakup berbagai karakteristik yang menentukan nilai dan potensi wawasan yang dapat diperoleh dari data tersebut. Berikut adalah beberapa karakteristik utama dari big data:
-
Volume Volume mengacu pada kuantitas data yang dihasilkan dan disimpan. Besarnya data menentukan nilai dan wawasan potensial, dan biasanya data dianggap sebagai big data jika ukurannya lebih besar dari terabytes dan petabytes.
-
Variety Variety menggambarkan jenis dan sifat data. Teknologi sebelumnya seperti RDBMS efisien dalam menangani data terstruktur. Namun, perubahan dari data terstruktur menjadi data semi-terstruktur atau tak terstruktur menantang alat dan teknologi yang ada. Big data berkembang dengan tujuan utama untuk menangkap, menyimpan, dan memproses data semi-terstruktur dan tak terstruktur yang dihasilkan dengan kecepatan tinggi dan ukuran besar. Big data mencakup teks, gambar, audio, video, dan melengkapi bagian yang hilang melalui fusi data.
-
Velocity Velocity merujuk pada kecepatan data yang dihasilkan dan diproses untuk memenuhi tuntutan dan tantangan yang ada. Big data seringkali tersedia secara real-time dan dihasilkan secara lebih terus-menerus dibandingkan dengan data kecil.
-
Veracity Veracity mengacu pada kebenaran atau keandalan data, yang mencakup kualitas dan nilai data. Big data harus tidak hanya besar dalam ukuran, tetapi juga dapat diandalkan untuk mencapai nilai dalam analisisnya. Kualitas data yang ditangkap dapat bervariasi, mempengaruhi analisis yang akurat.
-
Value Value adalah nilai informasi yang dapat dicapai melalui pemrosesan dan analisis dataset besar. Nilai juga dapat diukur melalui penilaian terhadap kualitas lain dari big data, serta mewakili profitabilitas informasi yang diperoleh dari analisis big data.
Selain karakteristik utama di atas, big data juga memiliki karakteristik tambahan seperti kelembagaan, keunikannya, dan skalabilitas. Dengan memahami karakteristik ini, perusahaan dapat memanfaatkan potensi big data secara lebih efektif untuk mendukung pengambilan keputusan dan inovasi di berbagai bidang industri.
Arsitektur dan Teknologi di Balik Big Data
Arsitektur big data telah berkembang seiring waktu, dimulai dari repositori data khusus yang dibangun oleh perusahaan-perusahaan dengan kebutuhan khusus. Vendor komersial telah menawarkan sistem manajemen basis data paralel untuk big data sejak tahun 1990-an. Salah satu pelopor dalam hal ini adalah Teradata Corporation, yang pada tahun 1984 memasarkan sistem pemrosesan paralel DBC 1012. Sistem Teradata adalah yang pertama dalam menyimpan dan menganalisis 1 terabyte data pada tahun 1992.
Sejak itu, konsep big data semakin berkembang, dengan teknologi dan platform seperti HPCC Systems yang dikembangkan oleh Seisint Inc. (sekarang LexisNexis Risk Solutions) pada tahun 2000. Platform ini secara otomatis membagi, mendistribusikan, menyimpan, dan mengirimkan data terstruktur, semi-terstruktur, dan tak terstruktur melintasi beberapa server. Pengguna dapat menulis alur pipa pemrosesan data dan kueri dalam bahasa pemrograman dataflow deklaratif yang disebut ECL.
Selain itu, teknologi MapReduce yang dikembangkan oleh Google pada tahun 2004 juga memainkan peran penting dalam arsitektur big data. Konsep MapReduce menyediakan model pemrosesan paralel, yang kemudian diadopsi oleh proyek sumber terbuka Apache yang dikenal sebagai "Hadoop". Seiring dengan itu, Apache Spark dikembangkan pada tahun 2012 sebagai respons terhadap keterbatasan paradigma MapReduce, dengan menambahkan pemrosesan di dalam memori dan kemampuan untuk melakukan banyak operasi. Selain itu, pendekatan seperti MIKE2.0 telah diusulkan sebagai solusi untuk mengelola big data dengan lebih efisien. Pendekatan ini mengakui perlunya revisi dalam manajemen informasi sebagai dampak dari big data.
Dalam ekosistem big data, teknologi juga memegang peran penting. Teknik analisis data seperti A/B testing, machine learning, dan pemrosesan bahasa alami menjadi kunci dalam memahami dan mengolah big data. Selain itu, teknologi-teknologi seperti business intelligence, komputasi awan, dan basis data memainkan peran vital dalam menyimpan, mengelola, dan menganalisis data besar. Visualisasi data juga menjadi aspek penting dalam memahami hasil analisis data. Dengan teknologi dan arsitektur yang semakin berkembang, big data menjadi semakin dapat diakses dan dimanfaatkan oleh berbagai industri untuk meningkatkan pengambilan keputusan dan inovasi.
Pengapliasian Big Data
Perkembangan big data telah meningkatkan permintaan akan spesialis manajemen informasi, sehingga perusahaan-perusahaan besar seperti Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP, dan Dell menghabiskan lebih dari $15 miliar untuk mengakuisisi perusahaan-perusahaan yang mengkhususkan diri dalam manajemen data dan analitika. Pada tahun 2010, industri ini bernilai lebih dari $100 miliar dan tumbuh hampir 10 persen setiap tahunnya, sekitar dua kali lebih cepat daripada bisnis perangkat lunak secara keseluruhan.
Teknologi yang menggunakan data semakin populer dalam ekonomi yang berkembang. Terdapat 4.6 miliar langganan ponsel di seluruh dunia, dan antara 1 miliar hingga 2 miliar orang mengakses internet. Antara tahun 1990 dan 2005, lebih dari 1 miliar orang di seluruh dunia menjadi bagian dari kelas menengah, yang berarti lebih banyak orang menjadi lebih melek informasi, yang pada gilirannya menyebabkan pertumbuhan informasi. Kapasitas efektif dunia untuk pertukaran informasi melalui jaringan telekomunikasi adalah 281 petabyte pada tahun 1986, 471 petabyte pada tahun 1993, 2.2 exabyte pada tahun 2000, 65 exabyte pada tahun 2007, dan perkiraan menempatkan jumlah lalu lintas internet pada 667 exabyte per tahun pada tahun 2014. Sekitar sepertiga dari informasi yang tersimpan secara global berupa teks alfanumerik dan data gambar diam, yang merupakan format paling berguna untuk sebagian besar aplikasi big data. Ini juga menunjukkan potensi dari data yang belum dimanfaatkan (misalnya dalam bentuk konten video dan audio).
Meskipun banyak vendor menawarkan produk siap pakai untuk big data, para ahli mendorong pengembangan sistem yang dibuat khusus in-house jika perusahaan memiliki kemampuan teknis yang cukup. Dengan demikian, big data telah membuka peluang baru dalam berbagai industri dan menjadi kunci untuk pengambilan keputusan yang lebih cerdas dan inovasi yang lebih besar.
Disadur dari: en.wikipedia.org