Ilmu Data

Pembelajaran Mesin

Dipublikasikan oleh Siti Nur Rahmawati pada 13 Agustus 2022


Pemelajaran mesin, cabang dari kecerdasan buatan, adalah disiplin ilmu yang mencakup perancangan dan pengembangan algoritme yang memungkinkan komputer untuk mengembangkan perilaku berdasarkan data empiris, seperti dari sensor data basis data. Sistem pembelajar dapat memanfaatkan contoh (data) untuk menangkap ciri yang diperlukan dari probabilitas yang mendasarinya (yang tidak diketahui). Data dapat dilihat sebagai contoh yang menggambarkan hubungan antara variabel yang diamati. Fokus besar penelitian pemelajaran mesin adalah bagaimana mengenali secara otomatis pola kompleks dan membuat keputusan cerdas berdasarkan data. Kesukarannya terjadi karena himpunan semua peri laku yang mungkin, dari semua masukan yang dimungkinkan, terlalu besar untuk diliput oleh himpunan contoh pengamatan (data pelatihan). Karena itu pembelajar harus merampatkan (generalisasi) perilaku dari contoh yang ada untuk menghasilkan keluaran yang berguna dalam kasus-kasus baru.

 

Definisi

Mesin yang dimaksud di sini adalah mesin dalam pengertian lebih mendekati kepada ‘sistem’, bukan mesin 'mekanik'. Istilah pemelajaran pertama kali muncul dalam disiplin ilmu kecerdasan buatan. Pemelajaran berarti menambah pengetahuan, memahami dengan belajar, dan mengikuti perintah. Pemelajaran mesin merupakan salah satu cabang dari kecerdasan buatan yang membahas mengenai pembangunan sistem yang didapat berdasarkan pada pemelajaran data, atau sebuah studi yang mempelajari cara untuk memprogram sebuah komputer untuk belajar. Inti dari pemelajaran mesin adalah representasi dan generalisasi. Pada tahun 1959, Arthur Samuel mendefinisikan bahwa pemelajaran mesin adalah bidang studi yang memberikan kemampuan untuk belajar tanpa diprogram secara eksplisit. Kemampuan belajar yang menjadi dominan ditentukan oleh kemampuan perangkat lunak atau alogaritmanya. Implementasi kemampuan belajar dapat dicapai dengan berbagai teknik, ada yang menggunakan kaidah (rule), ada yang menggunakan statistika, ada yang menggunakan pendekatan fisiologi yaitu sistem saraf manusia atau disebut dengan ANN (artificial neural network) atau jaringan saraf tiruan. Pemelajaran mesin dapat berfungsi untuk beradaptasi dengan suatu keadaan yang baru, serta untuk mendeteksi dan memperkirakan suatu pola.

 

Sejarah

Pada tahun 1951, John McCarthy yang baru saja mendapatkan gelar PhD meyakinkan Minsky, Claude Shannon, dan Nathaniel Rochester untuk membantunya membawa peneliti Amerika Serikat yang memiliki ketertarikan pada teori automata, jaring saraf, dan studi mengenai kecerdasan menjadi satu. Mereka mengorganisir sebuah lokakarya di Dartmouth College di Hanover, New Hampshire pada tahun 1956. Pada saat itulah dianggap menjadi tahun lahirnya kecerdasan buatan. Sejak awal, para peneliti kecerdasan buatan tidak segan membuat prediksi mengenai keberhasilan dari kecerdasan buatan ini. Pada awalnya kecerdasan buatan berkembang cukup pesat, hal ini disebabkan karena ekspektasi yang terlalu tinggi dari para peneliti di bidang ini. Hingga pada tahun 1974, bidang kecerdasan buatan mulai kurang diminati. Sampai pada tahun 1980, ketertarikan terhadap kecerdasan buatan sebagai bidang penelitian mulai bangkit kembali. Salah satu yang mendukung hal ini adalah hasil kerja Yarowsky (1995), ia melakukan percobaan menggunakan pemelajaran mesin dan mendapatkan hasil diatas 96% untuk ke akuratan dari percobaannya. Setelah Yarowsky banyak orang-orang yang melakukan percobaan menggunakan pemelajaran mesin dan mendapatkan hasil yang memuaskan, dari sinilah pemelajaran mesin dapat semakin berkembang hingga hari ini.

 

Perbedaan dengan penggalian data

Penggalian data (data mining) adalah sebuah proses untuk menemukan pengetahuan, ketertarikan, dan pola baru dalam bentuk model yang deskriptif, dapat dimengerti, dan prediktif dari data dalam skala besar. Dengan kata lain data mining merupakan ekstraksi atau penggalian pengetahuan yang diinginkan dari data dalam jumlah yang sangat besar.

Dari definisi diatas dapat disimpulkan bahwa pada pemelajaran mesin berkaitan dengan studi, desain dan pengembangan dari suatu algoritme yang dapat memungkinkan sebuah komputer dapat belajar tanpa harus diprogram secara eksplisit. Sedangkan pada data mining dilakukan proses yang dimulai dari data yang tidak terstruktur lalu diekstrak agar mendapatkan suatu pengetahuan ataupun sebuah pola yang belum diketahui. Selama proses data mining itulah algoritme dari pemelajaran mesin digunakan.

 

Tipe algoritme

Algoritme dalam pemelajaran mesin dapat dikelompokkan berdasarkan masukan dan keluaran yang diharapkan dari algoritme.

  • Pemelajaran terarah (supervised learning) membuat fungsi yang memetakan masukan ke keluaran yang dikehendaki, misalnya pada pengelompokan (klasifikasi).

Pemelajaran terarah merupakan algoritme yang mempelajari sekumpulan contoh pasangan masukan-keluaran yang diinginkan dalam jumlah yang cukup besar. Algoritme ini menggunakan data latih (data train), yaitu data-data yang sudah diberi label untuk melakukan pembelajaran. Metode ini bertujuan agar mesin mampu mengidentifikasi label input baru dengan menggunakan fitur yang ada untuk melakukan prediksi maupun klasifikasi. Dengan mengamati data-data tersebut, metode ini akan menghasilkan sebuah model yang mampu memetakan masukan yang baru menjadi keluaran yang tepat.

Salah satu contoh yang paling sederhana adalah terdapat sekumpulan contoh masukan berupa umur seseorang dan contoh keluaran yang berupa tinggi badan orang tersebut. Algoritme pemelajaran melalui contoh mengamati contoh-contoh tersebut dan kemudian mempelajari sebuah fungsi yang pada akhirnya dapat "memperkirakan" tinggi badan seseorang berdasarkan masukan umur orang tersebut.

Contoh implementasi dengan metode ini adalah pada kasus deteksi spam pada surel. Data latih yang digunakan akan diberi label berupa spam dan bukan spam. Mesin akan mempelajari data-data tersebut melalui proses learning sehingga dapat menghasilkan keluaran berupa mesin yang sudah terlatih untuk mengelompokkan surel yang spam dan bukan spam.

 

  • Pemelajaran tak terarah (unsupervised learning) memodelkan himpunan masukan, seperti penggolongan (clustering).

Algoritme ini mempunyai tujuan untuk mempelajari dan mencari pola-pola menarik pada masukan yang diberikan.[4] Meskipun tidak disediakan keluaran yang tepat secara eksplisit. Salah satu algoritme unsupervised learning yang paling umum digunakan adalah clustering atau pengelompokan.

Berbeda dengan metode sebelumnya, metode ini tidak menggunakan data latih dalam melakukan pembelajaran. Dengan kata lain, data-data yang diberikan kepada mesin adalah data-data yang tidak berlabel sehingga mesin dapat mempelajari data-data tersebut berdasarkan fitur-fiturnya. Algoritme ini tidak memiliki variabel target dan bertujuan untuk mengelompokkan objek yang serupa dalam suatu area tertentu.

Contoh unsupervised learning dalam dunia nyata, misalnya seorang supir taksi yang secara perlahan-lahan menciptakan konsep "macet" dan "tidak macet" tanpa pernah diberikan contoh oleh siapapun.

 

  • Pemelajaran semi terarah (semi-supervised learning), yakni tipe yang menggabungkan antara supervised dan unsupervised untuk menghasilkan suatu fungsi.

Algoritme pemelajaran semi terarah menggabungkan kedua tipe algoritme di atas, di mana diberikan contoh masukan-keluaran yang tepat dalam jumlah sedikit dan sekumpulan masukan yang keluarannya belum diketahui. Algoritme ini harus membuat sebuah rangkaian kesatuan antara dua tipe algoritme di atas untuk dapat menutupi kelemahan pada masing-masing algoritme.

Misalnya sebuah sistem yang dapat menebak umur seseorang berdasarkan foto orang tersebut. Sistem tersebut membutuhkan beberapa contoh, misalnya yang didapatkan dengan mengambil foto seseorang dan menanyakan umurnya (pemelajaran terarah). Akan tetapi, pada kenyataannya beberapa orang sering kali berbohong tentang umur mereka sehingga menimbulkan noise pada data. Oleh karena itu, digunakan juga pemelajaran tak terarah agar dapat saling menutupi kelemahan masing-masing, yaitu noise pada data dan ketiadaan contoh masukan-keluaran.

 

  • Reinforcement learning: Tipe ini mengajarkan bagaimana cara bertindak untuk menghadapi suatu masalah, yang suatu tindakan itu mempunyai dampak. Adalah sebuah algoritme pemelajaran yang diterapkan pada agen cerdas agar ia dapat menyesuaikan dengan kondisi dilingkungannya, hal ini dicapai dengan cara memaksimalkan nilai dari hadiah ‘reward’ yang dapat dicapai. Suatu hadiah didefinisikan sebuah tanggapan balik ‘feedback’ dari tindakan agen bahwa sesuatu baik terjadi .Sebagai contoh, sangatlah sulit untuk memrogram sebuah agen untuk menerbangkan sebuah helikopter, tetapi dengan memberikan beberapa nilai negatif untuk menabrak, bergoyang-goyang, serta melenceng dari jalur tujuan perlahan-lahan agen tersebut dapat belajar menerbangkan helikopter dengan lebih baik.
  • Pemelajaran berkembang (developmental learning algorithm) adalah sebuah bidang yang bertujuan untuk mempelajari mekanisme pengembangan, arsiterktur, dan batasan yang memungkinkan dibuatnya metode pemelajaran yang berlaku seumur hidup, serta bersifat terbuka terhadap kemampuan dan pengetahuan untuk dipasangkan kepada mesin.
  • Transduction: Tipe ini hampir mirip dengan Supervised Learning, tapi tidak secara jelas untuk membangun suatu fungsi melainkan mencoba memprediksi output baru yang berdasarkan dari input baru, masukan pelatihan input dan output
  • Learning to learn: Tipe ini menggunakan algoritme untuk mempelajari yang sebelumnya.

 

Contoh pendekatan

Pohon keputusan

Pemelajaran pohon keputusan bisa dijadikan sebagai model prediktif yang dapat memetakan pengamatan sebuah pilihan ke kesimpulan target dari pilihan tersebut. Pohon keputusan memiliki pendekatan pemodelan prediksi menggunakan statistik, data mining, dan pemelajaran mesin. Pada pohon keputusan ini node-node daunnya akan merepresentasikan label kelas, sedangkan cabangnya merepresentasikan kaitan dari fitur-fitur yang dapat menuntun menuju label kelas yang ada. Pemelajaran pohon keputusan merupakan representasi sederhana untuk contoh pengklasifikasian. Pemelajaran pohon keputusan merupakan salah satu teknik dari supervised learning. Terdapat banyak algoritme pohon keputusan, diantaranya adalah id3 (iterative dichotomiser 3), c4.5, cart (classification and regression tree), CHAID (CHi-squared Automatic Interaction Detector), MARS, dan lain-lain.

Sebagai contoh pohon keputusan dapat digunakan untuk penyaringan email. Dengan memasukan fitur-fitur dari email yang telah ditentukan menjadi cabangnya, dan nantinya cabang-cabang tersebut memiliki daun yang dapat menentukan email tersebut masuk ke label yang mana yang telah tersedia.

 

Jaringan saraf tiruan

Jaringan saraf tiruan (artificial neural network) adalah sebuah algoritme yang didesain untuk memodelkan cara kerja jaringan saraf dalam melakukan suatu pekerjaan atau fungsi tertentu. Jaringan ini biasanya diimplementasikan dengan menggunakan komponen elektronik atau disimulasikan dalam sebuah perangkat lunak di dalam komputer digital.[6]

 

Pengelompokan

Pengelompokan (clustering) merupakan salah satu pemelajaran yang tergolong dalam pemelajaran yang tidak memerlukan contoh (unsupervised learning). Definisi sederhana dari pengelompokan adalah sebuah proses untuk mengorganisasikan objek menjadi beberapa kelompok yang memiliki anggota yang mirip dalam hal tertentu.[7] Algoritme pengelompokan menerima sekumpulan masukan dan kemudian membuat sebuah pembagian (kelompok-kelompok) dari masukan tersebut. Dua masukan yang berada pada kelompok yang sama seharusnya memiliki banyak kesamaan dibandingkan dengan dua masukan yang berada pada kelompok yang berbeda.[8]

Sebagai contoh, para astronom harus melakukan pengelompokan untuk menentukan tipe dari bintang-bintang berdasarkan data spektrum dari ratusan ribu bintang sehingga pada akhirnya mendapatkan istilah seperti “red giant” dan “white dwarf”.[1]

 

Jaringan Bayes

Bayesian network diciptakan karena adanya penelitian 'Alasan Probabilistik dalam Kecerdasan Sistem oleh Judea Pearl (1988) yang menuntun pada diterimanya probabilitas dan teori keputusan dalam kecerdasan buatan. Bayesian Network secara formal diciptakan untuk memungkinkan representasi yang efisien, dan penalaran yang teliti dengan, pengetahuan pasti. Bayesian network memungkinkan untuk dapat belajar dari pengalaman serta menggabungkan kecerdasan buatan yang terbaik dan jaringan saraf. Bayesian network merupakan keluarga dari model graf probabilistik. Struktur graf ini digunakan untuk merepresentasikan pengetahuan dari suatu domain yang belum pasti. Nantinya setiap node yang ada pada graf merepresentasikan variabel acak, dimana sisi-sisi antar node tersebut merepresentasikan probabilitas ketergantungan antar variabel yang acak tersebut.[9]

 

Pemrograman logika induktif

Pemrograman logika induksi (inductive logic programming) merupakan salah satu pendekatan pemelajaran mesin yang mempelajari konstruksi induktif dalam bentuk first-order berdasarkan contoh dan latar belakang pengetahuan yang ada.[10] Pendekatan ini menekankan pada representasi dari hipotesis sebagai program logika.

Contohnya pada pemelajaran relasi keluarga dari data yang diberikan. Proses klasifikasi dilakukan dengan memproses latar belakang pengetahuan, hipotesis, dan deskripsi yang diberikan. Deskripsi akan terdiri dari istilah seperti Father(Philip, Charles), Mother(Mum, Margaret), dan lainnya. Pada awalnya, belum latar belakang pengetahuan yang dapat digunakan. Sehingga memunculkan beberapa hipotesis seperti Grandparent(x,y). Seiring berjalannya waktu, latar belakang pengetahuan akan terus meningkat dan menemukan bahwa Parent(x,y) ⟺ [Mother(x,y) V Father(x,y)]. Dengan demikian, definisi dari Grandparent dapat dikurangi menjadi Grandparent(x,y) ⟺ [∃z Parent(x,z) ∧ Parent(z,y)].[1]

 

Manfaat dan implementasi

Pemelajaran mesin menjaganya agar tetap sederhana, sebuah algoritme dikembangkan untuk mencatat perubahan dalam data dan berevolusi dalam desain itu untuk mengakomodasi temuan baru. Seperti diterapkan untuk analisis prediktif, fitur ini memiliki dampak luas mulai pada kegiatan yang biasanya dilakukan untuk mengembangkan, menguji, dan memperbaiki algoritme untuk tujuan tertentu. Aplikasi untuk pemelajaran mesin termasuk:

  • Machine perception
  • Computer vision, including object recognition
  • Natural language processing
  • Syntactic pattern recognition
  • Machine learning
  • Medical diagnosis
  • Bioinformatics
  • Brain-machine interfaces
  • Cheminformatics
  • Detecting credit card fraud
  • Stock market analysis
  • Classifying DNA sequences
  • Sequence mining
  • Speech and handwriting recognition
  • Games
  • Software engineering
  • Adaptive websites
  • Robot locomotion
  • Computational advertising
  • Computational finance
  • Structural health monitoring
  • Sentiment analysis (or opinion mining)
  • Affective computing
  • Menerima Informasi
  • Recommender systems

 

Penerapan pada masa depan

Meskipun Machine Learning tidak dapat secara efektif memprediksi jengkel pengguna, kita masih percaya bahwa masih banyak yang bisa dilakukan untuk mencapai hasil yang lebih baik pada proyek ini. Pertama-tama, kumpulan data kami adalah kecil untuk metode pemelajaran mesin, kami ingin mengumpulkan lebih banyak data untuk melihat apakah meningkatkan hasil kami sama sekali. Hal lain yang kita ingin mencoba adalah mengubah permainan yang memainkan pengguna . Karena kita menggunakan jenis permainan penembak, banyak " menumbuk tombol " adalah terlibat. Sesuatu yang lebih seperti permainan balap dapat bekerja lebih baik untuk mendeteksi gangguan dengan sensor gaya, karena ada lebih banyak tombol memegang terlibat daripada dengan game jenis shooter. Sebuah permainan balap juga dapat memperkenalkan lebih terkait game stres dari sebuah permainan yang melibatkan menembak.

 

 

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pembelajaran Mesin

Ilmu Data

Pengumpulan Data Dalam Penelitian

Dipublikasikan oleh Siti Nur Rahmawati pada 09 Agustus 2022


Wawancara merupakan salah satu cara pengumpulan Data. Pengumpulan data adalah aktivitas mencari data yang dibutuhkan dalam rangka mencapai tujuan penelitian sosial.

 

A. Pengertian Pengumpulan Data

Data adalah bahan keterangan berupa himpunan fakta, angka, huruf, grafik, tabel, lambang, objek, kondisi, situasi. Data merupakan bahan baku informasi. Untuk mencapai tujuan penelitian, peneliti memerlukan data yang benar yang dapat diperoleh di lapangan sesuai dengan Topik dalam penelitiannya.

Pengumpulan data merupakan kegiatan mencari data di lapangan yang akan digunakan untuk menjawab permasalahan penelitian. Validitas pengumpulan data serta kualifikasi pengumpul data sangat diperlukan untuk memperoleh data yang berkualitas.

Saat mengumpulkan data, peneliti harus tekun, sabar, dan tidak putus asa. Peneliti harus sabar untuk berjalan dari rumah ke rumah, atau mendatangi instansi tertentu untuk mengadakan wawancara atau membagi kuesioner. Jika seseorang peneliti tidak memiliki mental yang kuat, ia akan mudah putus ada dan akhirnya gagal.

Secara umum, data terbagi menjadi dua, yaitu data primer dan data sekunder. Data primer adalah data yang diperoleh langsung dari lapangan, sedangkan data sekunder adalah data yang diperoleh secara tidak langsung dari lapangan.

 

B. Pengumpulan Data Primer

-akan dilanjutkkan-

 

 

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pengumpulan Data Dalam Penelitian

Ilmu Data

Analisis diskriminan linear

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Analisis diskriminan linear (bahasa Inggris: linear discriminant analysis, disingkat LDA) adalah generalisasi diskriminan linear Fisher, yaitu sebuah metode yang digunakan dalam ilmu statistika, pengenalan pola dan pembelajaran mesin untuk mencari kombinasi linear fitur yang menjadi ciri atau yang memisahkan dua atau beberapa objek atau peristiwa. Kombinasi yang diperoleh dapat dijadikan pengklasifikasi linear, atau biasanya digunakan untuk proses reduksi dimensionalitas sebelum pengklasifikasian.

Metode ini sangat terkait dengan analisis variansi (ANOVA) dan analisis regresi, yang juga mencoba untuk menyatakan suatu variabel dependen sebagai suatu kombinasi linear fitur-fitur atau pengukuran-pengukuran lainnya. Namun, ANOVA menggunakan variabel independen kategoris dan variabel dependen yang kontinu, sementara analisis diskriminan memiliki variabel independen yang kontinu dan variabel dependen yang kategoris. Regresi logistik dan regresi probit lebih mirip dengan LDA daripada ANOVA, karena keduanya juga mencoba menjelaskan variabel kategoris dari nilai variabel independen kontinu.

LDA juga terkait dengan analisis komponen utama dan analisis faktor karena sama-sama mencari kombinasi linear variabel-variabel yang terbaik dalam menjelaskan data. LDA secara eksplisit mencoba memodelkan perbedaan antara kelas-kelas data. PCA di sisi lain tidak mempertimbangkan perbedaan kelas, dan analisis faktor membangun kombinasi fitur berdasarkan perbedaan daripada kesamaan. Analisis diskriminan juga berbeda dari analisis faktor karena analisis diskriminan bukan teknik yang interdependen: perbedaan antara variabel independen dan dependen harus ditetapkan.

LDA berfungsi jika pengukuran yang dilakukan terhadap variabel-variabel independen untuk setiap pengamatan merupakan kuantitas yang kontinu. Jika yang dihadapi adalah variabel independen kategoris, teknik yang serupa adalah analisis korespondensi diskriminan.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Analisis diskriminan linear

Ilmu Data

Visualisasi data

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Visualisasi data dilihat oleh banyak bidang ilmu sebagai komunikasi visual modern. Visualisasi data tidak berada di bawah bidang manapun, melainkan interpretasi di antara banyak bidang (misalnya, terkadang dilihat sebagai cabang modern dari statistik deskriptif oleh beberapa orang, tetapi juga sebagai dasar alat pengembangan oleh yang lain). Visualisasi data mengikutkan pembuatan dan kajian dari representasi visual dari data, artinya "informasi yang telah diabstraksikan dalam bentuk skematis, termasuk atribut atau variabel dari unit informasi". 

Tujuan utama dari visualisasi data adalah untuk mengkomunikasikan informasi secara jelas dan efisien kepada pengguna lewat grafik informasi yang dipilih, seperti tabel dan grafik. Visualisasi yang efektif membantu pengguna dalam menganalisis dan penalaran tentang data dan bukti. Ia membuat data yang kompleks bisa diakses, dipahami dan berguna. Pengguna bisa melakukan pekerjaan analisis tertentu, seperti melakukan pembandingan atau memahami kausalitas, dan prinsip perancangan dari grafik (contohnya, memperlihatkan perbandingan atau kausalitas) mengikuti pekerjaan tersebut. Tabel pada umumnya digunakan saat pengguna akan melihat ukuran tertentu dari sebuah variabel, sementara grafik dari berbagai tipe digunakan untuk melihat pola atau keterkaitan dalam data untuk satu atau lebih variabel.

Visualisasi data adalah seni dan sains. Laju di mana data dikeluarkan telah meningkat, dipicu oleh meningkatnya ekonomi berbasis informasi. Data yang dibuat oleh aktivitas internet dan sejumlah sensor yang makin bertambah dalam lingkungan, seperti satelit dan kamera jalan, disebut sebagai "Big data". Pemrosesan, analisis dan mengkomunikasikan data tersebut menciptakan berbagai tantangan analisis bagi visualisasi data. Bidang ilmu data dan pelakunya yang disebut ilmuwan data telah muncul untuk membantu mengatasi tantangan tersebut.

Gambaran Umum

Visualisasi data mengacu pada teknik yang digunakan untuk mengkomunikasi data atau informasi dengan membuatnya sebagai objek visual (misalnya, titik, garis, atau batang) dalam grafik. Tujuannya yaitu untuk mengkomunikasikan informasi secara jelas dan efisien kepada pengguna. Ia merupakan salah satu tahap dalam analisis data atau ilmu data. Menurut Friedman (2008) "tujuan utama dari visualisasi data adalah untuk mengkomunikasikan informasi secara jelas dan efektif dengan cara grafis. Bukan berarti visualisasi data harus terlihat membosankan supaya berfungsi atau sangat canggih supaya terlihat menarik. Untuk memaparkan ide secara efektif, bentuk estetis dan fungsionalitas harus berbarengan, menyediakan wawasan bagi kumpulan data yang kompleks dan jarang dengan mengkomunikasikan aspek-aspek kunci dengan cara yang intuitif. Namun perancang terkadang gagal mencapai keseimbangan antara bentuk dan fungsi, menciptakan visualisasi data yang menawan yang gagal menyediakan tujuan utamanya -- untuk mengkomunikasikan informasi". 

Fernanda Viegas dan Martin M. Wattenberg menyarankan bahwa sebuah visualisasi yang ideal tidak hanya harus mengkomunikasikan secara jelas, tetapi menstimulasi atensi dan keterlibatan penonton. 

Visualisasi data secara dekat berkaitan dengan grafik informasi, visualisasi informasi, visualisasi ilmiah, eksplorasi analisis data dan grafik statistis. Pada milenia baru, visualisasi data telah menjadi wilayah penelitian, pengajaran dan pengembangan yang aktif. Menurut Post dkk. (2002), visualisasi data telah menyatukan visualisasi informasi dan ilmiah. 

Karakteristik penampilan grafik yang efektif

Profesor Edward Tufte menjelaskan bahwa pengguna dari tampilan informasi melakukan pekerjaan analitis tertentu seperti membuat perbandingan atau menentukan kausalitas. Prinsip perancangan dari grafik informasi harus mendukung pekerjaan analitis, memperlihatkan perbandingan atau kausalitas. 

Dalam bukunya tahun 1983 The Visual Display of Quantitative Information, Edward Tufte mendefinisikan 'tampilan grafik' dan prinsip-prinsip dari tampilan grafik yang efektif sebagai berikut: "Keberhasilan dalam grafik statistik terdiri dari mengkomunikasikan ide yang kompleks dengan kejelasan, ketepatan dan efisiensi. Tampilan grafis seharusnya:

  • memperlihatkan data
  • mendorong penglihat untuk berpikir tentang substansi bukan metodologi, rancangan grafik, teknologi dari produksi grafik atau hal lainnya
  • menghindari pengelabuan terhadap apa yang dikatakan oleh data
  • memberikan banyak angka dalam ruang yang kecil
  • membuat kumpulan data yang besar koheren
  • mendorong mata untuk membandingkan berbagai bagian berbeda dari data
  • membuka data pada beberapa tingkat kerincian, dari gambaran umum sampai struktur terakhir
  • melayani sebuah tujuan yang jelas: deskripsi, eksplorasi, tabulasi atau dekorasi
  • secara dekat berintegrasi dengan statistik dan deskripsi verbal dari sebuah kumpulan data.

Grafik menyingkap data. Tentu saja grafik bisa lebih tepat dan membuka daripada komputasi statisik konvensional." 

Sebagai contohnya, diagram Minard memperlihatkan kekalahan yang dialami oleh tentara Napoleon dalam periode 1812-1813. Enam variabel dipaparkan: ukuran tentara, lokasinya dalam dua-dimensi (x dan y), waktu, arah pergerakan, dan temperatur. Tampilan multivarian tersebut dalam dua dimensi menceritakan sebuah cerita yang dapat ditangkap langsung sementara mengidentifikasi sumber data untuk membangun sebuah kredibilitas. Tufte menulis pada tahun 1983 bahwa: "Ia mungkin saja grafik statistik terbaik yang pernah dilukis."

Dengan tidak menerapkan prinsip-prinsip tersebut bisa menghasilkan grafik menyesatkan, yang mengganggu pesan atau mendukung kesimpulan yang salah. Menurut Tufte, sampah-grafik mengacu pada dekorasi tambahan dari grafik yang tidak meningkatkan pesan, atau efek tiga dimensi atau perspektif yang serampangan. Secara sia-sia memisahkan kunci penjelasan dari gambar itu sendiri, membuat mata berpindah dari gambar ke penjelasan, adalah suatu bentuk dari "puing administratif". Rasio dari "data ke tinta" harus dimaksimalkan, menghapus tinta-tinta yang bukan data bila memungkinkan. 

Congressional Budge Office menyimpulkan beberapa praktik terbaik dalam menampilkan grafik dalam presentasi bulan Juni 2014, yaitu: a) Kenali penonton anda; b) Merancang grafik yang dapat berdiri sendiri di luar konteks dari laporan; dan c) Merancang grafik yang mengkomunikasikan pesan kunci dalam laporan. 

Sumber Artikel: id.wikipedia.org

Selengkapnya
Visualisasi data

Ilmu Data

Pemelajaran dalam

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Pemelajaran dalam (bahasa Inggris: deep learning) atau sering dikenal dengan istilah pemelajaran struktural mendalam (bahasa Inggris: deep structured learning) atau pemelajaran hierarki (bahasa Inggris: hierarchical learning) adalah salah satu cabang dari ilmu pemelajaran mesin (bahasa Inggris: machine learning) yang terdiri algoritme pemodelan abstraksi tingkat tinggi pada data menggunakan sekumpulan fungsi transformasi non-linear yang ditata berlapis-lapis dan mendalam. Teknik dan algoritme dalam pemelajaran dalam dapat digunakan baik untuk kebutuhan pemelajaran terarah (supervised learning), pemelajaran tak terarah (unsupervised learning) dan semi-terarah (semi-supervised learning) dalam berbagai aplikasi seperti pengenalan citra, pengenalan suara, klasifikasi teks, dan sebagainya. Model pada pembelajaran dalam pada dasarnya dibangun berdasarkan jaringan saraf tiruan, yang risetnya sudah berlangsung sejak era 80-an namun baru-baru ini kembali bangkit dengan adanya komputer yang semakin cepat apalagi ditambah dengan kemampuan kartu grafis modern yang mampu melakukan kalkulasi berbasis matriks secara simultan.

Berdasarkan riset yang baru-baru ini dilakukan, pemelajaran dalam mampu melakukan pengenalan grafis, pola tulis tangan dan beberapa pola lainnya lebih akurat dibandingkan dengan algoritme pemelajaran mesin lainnya.

Arsitektur

  • Deep Feedforward Network
    • Deep Feedforward Network atau dikenal dengan Multilayer Perceptron (MLP) merupakan pengembangan dari jaringan saraf tiruan yang menekankan pada penggunakan satu atau lebih lapis tersembunyi (hidden layer) pada jaringannya dan penggunaan fungsi transformasi non-linear sebagai fungsi transformasi. Jaringan ini disebut Feedforward oleh karena sifatnya yang membawa informasi dari lapis masukan (input layer) untuk dibawa dan ditransformasi ke depan hingga lapis luaran (output layer).
  • Recurrent Neural Network
    • Recurrent Neural Network merupakan pengembangan dari Deep Feedforward Network yang mana informasi dari suatu neuron dapat berputar kembali ke neuron yang sama (Deep Feddforward Network hanya membawa informasi ke lapis A ke lapis B secara progresif tanpa kembali ke lapis sebelumnya).
  • Convolutional Neural Network
    • Convolutional Neural Network merupakan modifikasi dari Deep Feedforward Network yang mana setiap lapisnya dibuat dalam bentuk topologi grid mendalam.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemelajaran dalam

Ilmu Data

Pemelajaran tak terarah

Dipublikasikan oleh Muhammad Farhan Fadhil pada 25 Maret 2022


Pembelajaran tak terarah adalah teknik pembelajaran mesin di mana kita tidak perlu mengawasi modelnya namun kita perlu mengizinkan model bekerja sendiri untuk menemukan informasi yang dibutuhkan. Hal ini terutama berkaitan dengan data tanpa label.

Algoritma pembelajaran tak terarah memungkinkan kita melakukan tugas pemrosesan yang lebih kompleks dibandingkan dengan pembelajaran terarah. Meskipun, pembelajaran tak terarah bisa lebih tak terduga dibandingkan dengan pembelajaran alami lainnya dalam pembelajaran dan metode reinforcement learning. Pembelajaran mesin tak terarah dapat menemukan semua jenis pola yang tidak diketahui dalam data. Metode yang tak terarah ini dapat membantu menemukan fitur yang berguna untuk pengelompokan. Pengelompokan ini dapat berlangsung secara real time, sehingga semua data masukan dianalisis dan diberi label. Realitanya, lebih mudah untuk mendapatkan data tidak berlabel dari komputer daripada data berlabel yang membutuhkan intervensi manual.

Zoubin Ghahramani menyatakan dalam tulisannya yang disunting lebih dari 530 kali, bahwa ia menjelaskan secara ringkas mengenai pemelajaran tak terarah dari sudut pandang pemodelan statistic.  Pemelajaran tak terarah terinspirasi dari teori informasi dan prinsip Bayesian. Ghahramani menjelaskan scara ringkas model dasar pada pemelajaran tak terarah meliputi Analisa faktor, Principal Component Analysis (PCA), percampuran Gaussian, Hidden Markov Model, ruang-status model, dan berbagai variasi tambahan. Ia menurunkan algoritma EM dan memberikan tinjauan singkat mengenai konsep dasar model grafis, dan algoritma inferensi grafis. Ia juga memberikan pemelajaran singkat mengenai perkiraan inferensi Bayesian yang dimana juga termasuk Markov Chain Monte Carlo (MCMC), Perkiraan Laplace, BIC, perkiraan variasi, dan Expectation Propagation (EP). Ia bertujuan dengan adanya karya nya ini agar ia dapat menyajikan pandangan dari sisi yang lebih tinggi dalam bidang ini.

Cara kerja

Sebagai contoh pada seorang bayi dan anjing peliharaan keluarganya. Bayi dapat mengenali dan mengidentifikasi anjing ini. Beberapa minggu kemudian seorang teman keluarga membawa serta seekor anjing dan mencoba bermain dengan bayinya. Bayi tersebut belum pernah melihat anjing lain ini sebelumnya. Tetapi ia mengakui banyak fitur (2 telinga, mata, berjalan dengan 4 kaki) seperti anjing peliharaannya yang telah ia kenal sebelumnya. Dia mengidentifikasi hewan baru yang tampaknya seperti ciri-ciri anjing walaupun belum bisa menyebutkan jenis mereka adalah anjing. Ini adalah pembelajaran tak terarah, di mana kita tidak diajarkan label tetapi kita belajar dari data (dalam hal ini data atau ciri-ciri tentang seekor anjing). Seandainya ini pembelajaran yang diawasi, teman keluarga akan memberi tahu bayi bahwa itu seekor anjing.

Sumber Artikel: id.wikipedia.org

Selengkapnya
Pemelajaran tak terarah
page 1 of 3 Next Last »