Dalam komputasi, data (diperlakukan sebagai tunggal, jamak, atau sebagai kata benda massa) adalah urutan dari satu atau lebih simbol; datum adalah simbol tunggal dari data. Data membutuhkan interpretasi untuk menjadi informasi. Data digital adalah data yang direpresentasikan menggunakan sistem bilangan biner satu (1) dan nol (0), bukan representasi analog. Dalam sistem komputer modern (pasca 1960), semua data adalah digital.
Data ada dalam tiga status: data saat istirahat, data dalam perjalanan, dan data yang digunakan. Data dalam komputer, dalam banyak kasus, bergerak sebagai data paralel. Data bergerak ke atau dari komputer, dalam banyak kasus, bergerak sebagai data serial. Data yang bersumber dari perangkat analog, seperti sensor suhu, dapat dikonversi ke digital menggunakan konverter analog-ke-digital. Data yang mewakili kuantitas, karakter, atau simbol yang operasinya dilakukan oleh komputer disimpan dan direkam pada media perekaman magnetik, optik, elektronik, atau mekanis, dan ditransmisikan dalam bentuk sinyal listrik atau optik digital. Data masuk dan keluar dari komputer melalui perangkat periferal.
Elemen memori komputer fisik terdiri dari alamat dan byte/word penyimpanan data. Data digital sering disimpan dalam database relasional, seperti tabel atau database SQL, dan umumnya dapat direpresentasikan sebagai pasangan kunci/nilai abstrak. Data dapat diatur dalam berbagai jenis struktur data, termasuk array, grafik, dan objek. Struktur data dapat menyimpan data dari berbagai jenis, termasuk angka, string, dan bahkan struktur data lainnya.
Karakteristik
Metadata membantu menerjemahkan data menjadi informasi. Metadata adalah data tentang data. Metadata mungkin tersirat, ditentukan atau diberikan.
Data yang berkaitan dengan peristiwa atau proses fisik akan memiliki komponen temporal. Komponen temporal ini mungkin tersirat. Ini adalah kasus ketika perangkat seperti pencatat suhu menerima data dari sensor suhu. Ketika suhu diterima, diasumsikan bahwa data memiliki referensi temporal sekarang. Jadi perangkat mencatat tanggal, waktu, dan suhu secara bersamaan. Saat pencatat data mengomunikasikan suhu, pencatat juga harus melaporkan tanggal dan waktu sebagai metadata untuk setiap pembacaan suhu.
Pada dasarnya, komputer mengikuti urutan instruksi yang diberikan dalam bentuk data. Serangkaian instruksi untuk melakukan tugas yang diberikan (atau tugas) disebut program. Program adalah data dalam bentuk instruksi berkode untuk mengendalikan pengoperasian komputer atau mesin lain. Dalam kasus nominal, program, seperti yang dijalankan oleh komputer, akan terdiri dari kode mesin. Elemen penyimpanan yang dimanipulasi oleh program, tetapi tidak benar-benar dijalankan oleh unit pemrosesan pusat (CPU), juga merupakan data. Pada dasarnya, satu datum adalah nilai yang disimpan di lokasi tertentu. Oleh karena itu, program komputer dimungkinkan untuk beroperasi pada program komputer lain, dengan memanipulasi data programnya.
Untuk menyimpan byte data dalam file, mereka harus serial dalam format file. Biasanya, program disimpan dalam jenis file khusus, berbeda dari yang digunakan untuk data lain. File yang dapat dieksekusi berisi program; semua file lain juga file data. Namun, file yang dapat dieksekusi juga dapat berisi data yang digunakan oleh program yang dibangun ke dalam program. Secara khusus, beberapa file yang dapat dieksekusi memiliki segmen data, yang secara nominal berisi konstanta dan nilai awal untuk variabel, yang keduanya dapat dianggap sebagai data.
Garis antara program dan data bisa menjadi kabur. Seorang juru bahasa, misalnya, adalah sebuah program. Data input ke juru bahasa itu sendiri adalah sebuah program, hanya saja bukan yang diekspresikan dalam bahasa mesin asli. Dalam banyak kasus, program yang ditafsirkan akan menjadi file teks yang dapat dibaca manusia, yang dimanipulasi dengan program editor teks. Metaprogramming juga melibatkan program yang memanipulasi program lain sebagai data. Program seperti compiler, linker, debugger, updater program, pemindai virus dan semacamnya menggunakan program lain sebagai data mereka.
Misalnya, pengguna mungkin terlebih dahulu menginstruksikan sistem operasi untuk memuat program pengolah kata dari satu file, dan kemudian menggunakan program yang sedang berjalan untuk membuka dan mengedit dokumen yang disimpan di file lain. Dalam contoh ini, dokumen akan dianggap sebagai data. Jika pengolah kata juga dilengkapi pemeriksa ejaan, maka kamus (daftar kata) untuk pemeriksa ejaan juga akan dianggap sebagai data. Algoritme yang digunakan oleh pemeriksa ejaan untuk menyarankan koreksi dapat berupa data kode mesin atau teks dalam beberapa bahasa pemrograman yang dapat diinterpretasikan.
Dalam penggunaan alternatif, file biner (yang tidak dapat dibaca manusia) kadang-kadang disebut data yang dibedakan dari teks yang dapat dibaca manusia.
Jumlah total data digital pada tahun 2007 diperkirakan mencapai 281 miliar gigabyte (281 exabytes).
Kunci dan nilai data, struktur dan persistensi
Kunci dalam data menyediakan konteks untuk nilai. Terlepas dari struktur data, selalu ada komponen kunci yang ada. Kunci dalam data dan struktur data sangat penting untuk memberi makna pada nilai data. Tanpa kunci yang langsung atau secara tidak langsung terkait dengan suatu nilai, atau kumpulan nilai dalam suatu struktur, nilai-nilai tersebut menjadi tidak berarti dan berhenti menjadi data. Artinya, harus ada komponen kunci yang terkait dengan komponen nilai agar dapat dianggap sebagai data.
Data dapat direpresentasikan dalam komputer dalam berbagai cara, seperti contoh berikut:
RAM
Memori akses acak (RAM) menyimpan data yang dapat diakses langsung oleh CPU. CPU hanya dapat memanipulasi data di dalam register atau memori prosesornya. Ini berbeda dengan penyimpanan data, di mana CPU harus mengarahkan transfer data antara perangkat penyimpanan (disk, tape...) dan memori. RAM adalah susunan lokasi linear yang berdekatan yang dapat dibaca atau ditulis oleh prosesor dengan memberikan alamat untuk operasi baca atau tulis. Prosesor dapat beroperasi di lokasi mana pun di memori kapan saja dalam urutan apa pun. Dalam RAM, elemen data terkecil adalah bit biner. Kemampuan dan keterbatasan mengakses RAM adalah khusus prosesor. Secara umum memori utama disusun sebagai array lokasi yang dimulai dari alamat 0 (heksadesimal 0). Setiap lokasi biasanya dapat menyimpan 8 atau 32 bit tergantung pada arsitektur komputer.
Kunci
Kunci data tidak harus berupa alamat perangkat keras langsung di memori. Kode kunci tidak langsung, abstrak dan logis dapat disimpan dalam hubungan dengan nilai-nilai untuk membentuk struktur data. Struktur data memiliki offset (atau tautan atau jalur) yang telah ditentukan sebelumnya dari awal struktur, di mana nilai data disimpan. Oleh karena itu, kunci data terdiri dari kunci struktur ditambah offset (atau tautan atau jalur) ke dalam struktur. Ketika struktur seperti itu diulang, menyimpan variasi nilai data dan kunci data dalam struktur berulang yang sama, hasilnya dapat dianggap menyerupai tabel, di mana setiap elemen dari struktur berulang dianggap sebagai kolom dan setiap pengulangan struktur dianggap sebagai deretan tabel. Dalam organisasi data seperti itu, kunci data biasanya berupa nilai dalam satu (atau gabungan nilai dalam beberapa) kolom.
Struktur data berulang yang terorganisir
Tampilan tabular dari struktur data yang berulang hanyalah salah satu dari banyak kemungkinan. Struktur data yang berulang dapat diatur secara hierarkis, sehingga node dihubungkan satu sama lain dalam rangkaian hubungan induk-anak. Nilai dan struktur data yang berpotensi lebih kompleks terkait dengan node. Dengan demikian hierarki nodal menyediakan kunci untuk menangani struktur data yang terkait dengan node. Representasi ini dapat dianggap sebagai pohon terbalik. Misalnya. sistem file sistem operasi komputer modern adalah contoh umum; dan XML adalah yang lain.
Data yang diurutkan atau diurutkan
Data memiliki beberapa fitur yang melekat ketika diurutkan pada kunci. Semua nilai untuk subset kunci muncul bersamaan. Saat melewati secara berurutan melalui grup data dengan kunci yang sama, atau subset dari perubahan kunci, ini disebut dalam lingkaran pemrosesan data sebagai pemutusan, atau pemutusan kontrol. Ini terutama memfasilitasi agregasi nilai data pada himpunan bagian dari kunci.
Penyimpanan periferal
Sampai munculnya memori non-volatil massal seperti flash, penyimpanan data persisten secara tradisional dicapai dengan menulis data ke perangkat blok eksternal seperti pita magnetik dan drive disk. Perangkat ini biasanya mencari lokasi pada media magnetik dan kemudian membaca atau menulis blok data dengan ukuran yang telah ditentukan. Dalam hal ini, lokasi pencarian pada media adalah kunci data dan blok adalah nilai data. Sistem file data disk mentah yang digunakan awal atau sistem operasi disk mencadangkan blok bersebelahan pada drive disk untuk file data. Dalam sistem tersebut, file dapat diisi, kehabisan ruang data sebelum semua data dituliskan kepada mereka. Jadi banyak ruang data yang tidak terpakai dicadangkan secara tidak produktif untuk memastikan ruang kosong yang memadai untuk setiap file. Kemudian sistem file memperkenalkan partisi. Mereka memesan blok ruang data disk untuk partisi dan menggunakan blok yang dialokasikan secara lebih ekonomis, dengan menetapkan blok partisi secara dinamis ke file sesuai kebutuhan. Untuk mencapai ini, sistem file harus melacak blok mana yang digunakan atau tidak digunakan oleh file data dalam katalog atau tabel alokasi file. Meskipun ini memanfaatkan ruang data disk dengan lebih baik, hal itu mengakibatkan fragmentasi file di seluruh disk, dan peningkatan kinerja yang bersamaan karena waktu pencarian tambahan untuk membaca data. Sistem file modern mengatur ulang file yang terfragmentasi secara dinamis untuk mengoptimalkan waktu akses file. Perkembangan lebih lanjut dalam sistem file menghasilkan virtualisasi disk drive yaitu di mana drive logis dapat didefinisikan sebagai partisi dari sejumlah drive fisik.
Data yang diindeks
Mengambil subset kecil data dari set yang jauh lebih besar mungkin menyiratkan pencarian yang tidak efisien melalui data secara berurutan. Indeks adalah cara untuk menyalin kunci dan alamat lokasi dari struktur data dalam file, tabel dan kumpulan data, kemudian mengaturnya menggunakan struktur pohon terbalik untuk mengurangi waktu yang dibutuhkan untuk mengambil subset dari data asli. untuk melakukan ini, kunci dari subset data yang akan diambil harus diketahui sebelum pengambilan dimulai. Indeks yang paling populer adalah B-tree dan metode pengindeksan kunci hash dinamis. Pengindeksan adalah overhead untuk pengarsipan dan pengambilan data. Ada cara lain untuk mengatur indeks, mis. menyortir kunci dan menggunakan algoritma pencarian biner.
Abstraksi dan tipuan
Pemrograman berorientasi objek menggunakan dua konsep dasar untuk memahami data dan perangkat lunak:
- Struktur peringkat taksonomi kelas, yang merupakan contoh struktur data hierarkis; dan
- pada saat dijalankan, pembuatan referensi ke struktur data dalam memori dari objek yang telah dibuat instancenya dari perpustakaan kelas.
Hanya setelah instantiasi objek dari kelas tertentu ada. Setelah referensi objek dihapus, objek juga tidak ada lagi. Lokasi memori tempat data objek disimpan adalah sampah dan diklasifikasi ulang sebagai memori tidak terpakai yang tersedia untuk digunakan kembali.
Databasis data
Munculnya database memperkenalkan lapisan abstraksi lebih lanjut untuk penyimpanan data persisten. Basis data menggunakan metadata, dan protokol bahasa kueri terstruktur antara sistem klien dan server, berkomunikasi melalui jaringan komputer, menggunakan sistem pencatatan komit dua fase untuk memastikan kelengkapan transaksi, saat menyimpan data.
Pemrosesan data terdistribusi paralel
Teknologi persistensi data modern yang skalabel dan berkinerja tinggi, seperti Apache Hadoop, bergantung pada pemrosesan data paralel yang didistribusikan secara masif di banyak komputer komoditas pada jaringan bandwidth tinggi. Dalam sistem seperti itu, data didistribusikan di beberapa komputer dan oleh karena itu setiap komputer tertentu dalam sistem harus diwakili dalam kunci data, baik secara langsung, atau tidak langsung. Hal ini memungkinkan diferensiasi antara dua set data yang identik, masing-masing diproses pada komputer yang berbeda pada waktu yang sama.
Sumber Artikel: en.wikipedia.org