Kumpulan data (atau dataset) adalah kumpulan data. Dalam kasus data tabular, kumpulan data berhubungan dengan satu atau beberapa tabel basis data, di mana setiap kolom tabel mewakili variabel tertentu, dan setiap baris berhubungan dengan catatan tertentu dari kumpulan data yang dimaksud. Kumpulan data mencantumkan nilai untuk setiap variabel, seperti misalnya tinggi dan berat objek, untuk setiap anggota kumpulan data. Kumpulan data juga dapat terdiri dari kumpulan dokumen atau file.
Dalam disiplin data terbuka, set data adalah unit untuk mengukur informasi yang dirilis dalam repositori data terbuka publik. Portal data.europa.eu mengumpulkan lebih dari satu juta set data.
Properti
Beberapa karakteristik mendefinisikan struktur dan properti set data. Ini termasuk jumlah dan jenis atribut atau variabel, dan berbagai ukuran statistik yang berlaku untuk mereka, seperti deviasi standar dan kurtosis.
Nilai dapat berupa angka, seperti bilangan real atau bilangan bulat, misalnya mewakili tinggi badan seseorang dalam sentimeter, tetapi juga dapat berupa data nominal (yaitu, tidak terdiri dari nilai numerik), misalnya mewakili etnis seseorang. Secara lebih umum, nilai dapat berupa salah satu jenis yang digambarkan sebagai tingkat pengukuran. Untuk setiap variabel, nilainya biasanya memiliki jenis yang sama. Nilai yang hilang mungkin ada, yang harus ditunjukkan dengan cara apa pun.
Dalam statistik, kumpulan data biasanya berasal dari pengamatan aktual yang diperoleh dengan mengambil sampel dari populasi statistik, dan setiap baris sesuai dengan pengamatan pada satu elemen dari populasi tersebut. Kumpulan data selanjutnya dapat dihasilkan oleh algoritme untuk tujuan pengujian jenis perangkat lunak tertentu. Beberapa perangkat lunak analisis statistik modern seperti SPSS masih menyajikan data mereka dalam bentuk kumpulan data klasik. Jika ada data yang hilang atau mencurigakan, metode imputasi dapat digunakan untuk melengkapi kumpulan data.
Klasik
Beberapa set data klasik telah digunakan secara luas dalam literatur statistik:
- Kumpulan data bunga iris - Kumpulan data multivariat yang diperkenalkan oleh Ronald Fisher (1936). Disediakan secara online oleh University of California-Irvine Machine Learning Repository.
- Basis data MNIST - Gambar angka tulisan tangan yang biasa digunakan untuk menguji algoritma klasifikasi, pengelompokan, dan pemrosesan gambar
- Analisis data kategorikal - Kumpulan data yang digunakan dalam buku, Pengantar Analisis Data Kategorikal, yang disediakan secara online oleh UCLA Advanced Research Computing.
- Statistik yang kuat - Kumpulan data yang digunakan dalam Robust Regression and Outlier Detection (Rousseeuw dan Leroy, 1968). Disediakan secara online di University of Cologne.
- Deret waktu - Data yang digunakan dalam buku Chatfield, Analisis Deret Waktu, disediakan secara online oleh StatLib.
- Nilai-nilai ekstrem - Data yang digunakan dalam buku, Pengantar Pemodelan Statistik Nilai Ekstrem adalah cuplikan data yang disediakan secara online oleh Stuart Coles, penulis buku tersebut.
- Analisis Data Bayesian - Data yang digunakan dalam buku ini disediakan secara online (tautan arsip) oleh Andrew Gelman, salah satu penulis buku ini.
- Data hati Bupa - Digunakan dalam beberapa makalah dalam literatur pembelajaran mesin (data mining).
- Kuartet Anscombe - Kumpulan data kecil yang menggambarkan pentingnya membuat grafik data untuk menghindari kekeliruan statistik
Disadur dari: https://en.wikipedia.org/