Penambangan teks, juga dikenal sebagai analisis teks atau penambangan data teks (TDM), adalah metode untuk mengekstraksi wawasan yang berharga dari sumber teks. Proses ini melibatkan penggunaan algoritme komputer untuk mengungkap informasi baru dari berbagai materi tertulis seperti situs web, email, buku, dan artikel. Tujuannya adalah untuk mendapatkan informasi berkualitas tinggi dengan mengidentifikasi pola dan tren melalui teknik pembelajaran pola statistik.
Menurut Hotho dkk. (2005), text mining dapat dikategorikan ke dalam tiga perspektif: ekstraksi informasi, data mining, dan penemuan pengetahuan dalam database (KDD). Ekstraksi informasi biasanya mencakup penataan teks input, mendapatkan pola dari data terstruktur, dan mengevaluasi serta menginterpretasikan hasilnya. Istilah "kualitas tinggi" dalam text mining mengacu pada relevansi, kebaruan, dan ketertarikan informasi yang diekstrak.
Tugas-tugas umum dalam text mining meliputi kategorisasi teks, pengelompokan, ekstraksi konsep, analisis sentimen, peringkasan, dan pemodelan relasi entitas. Analisis teks melibatkan berbagai teknik seperti analisis leksikal, pengenalan pola, penandaan, ekstraksi informasi, penggalian data, visualisasi, dan analisis prediktif. Tujuan utamanya adalah mengubah teks menjadi data yang dapat dianalisis menggunakan pemrosesan bahasa alami (NLP) dan berbagai algoritme.
Aplikasi khas dari text mining adalah untuk menganalisis koleksi dokumen dalam bahasa alami, baik untuk tujuan klasifikasi prediktif atau untuk mengekstrak informasi untuk populasi database atau pengayaan indeks pencarian. Dalam proses ini, dokumen berfungsi sebagai unit dasar dari data tekstual, yang ditemukan dalam berbagai jenis koleksi.
Analisis Teks: Memahami Informasi dari Sumber Teks untuk Bisnis dan Penelitian
Analisis teks menggambarkan seperangkat teknik linguistik, statistik, dan pembelajaran mesin yang memodelkan dan mengatur konten informasi dari sumber-sumber teks untuk kecerdasan bisnis, analisis data eksploratif, penelitian, atau investigasi. Istilah ini hampir sinonim dengan penambangan teks; bahkan, Ronen Feldman memodifikasi deskripsi "penambangan teks" pada tahun 2000 menjadi "analisis teks" pada tahun 2004. Istilah terakhir ini kini lebih sering digunakan dalam pengaturan bisnis sementara "penambangan teks" digunakan dalam beberapa area aplikasi terawal, yang berasal dari tahun 1980-an, terutama penelitian ilmu kehidupan dan intelijen pemerintah.
Istilah analisis teks juga menggambarkan aplikasi analisis teks untuk menanggapi masalah-masalah bisnis, baik secara mandiri maupun bersamaan dengan pencarian dan analisis data numerik. Sebuah kebenaran umum bahwa 80 persen informasi yang relevan dengan bisnis berasal dalam bentuk yang tidak terstruktur, terutama teks. Teknik dan proses ini menemukan dan menyajikan pengetahuan – fakta, aturan bisnis, dan hubungan – yang terkunci dalam bentuk teks, sulit untuk diproses secara otomatis.
Proses Analisis Teks
Subtugas—komponen dari usaha analisis teks yang lebih besar—biasanya mencakup:
- Reduksi dimensi adalah teknik penting untuk pra-pemrosesan data. Teknik ini digunakan untuk mengidentifikasi kata dasar untuk kata-kata aktual dan mengurangi ukuran data teks.
- Pemulihan informasi atau identifikasi sebuah korpus adalah langkah persiapan: mengumpulkan atau mengidentifikasi sekumpulan materi teks, di Web atau disimpan dalam sistem file, database, atau manajer korpus konten, untuk analisis.
- Meskipun beberapa sistem analisis teks menerapkan secara eksklusif metode statistik canggih, banyak yang lain menerapkan pemrosesan bahasa alami yang lebih luas, seperti tagging bagian ucapan, analisis sintaksis, dan jenis analisis linguistik lainnya.
- Pengenalan entitas bernama adalah penggunaan daftar istilah atau teknik statistik untuk mengidentifikasi fitur teks bernama: orang, organisasi, nama tempat, simbol saham, singkatan tertentu, dan sebagainya.
- Disambiguasi—penggunaan petunjuk kontekstual—mungkin diperlukan untuk memutuskan di mana, misalnya, "Ford" dapat merujuk pada mantan presiden AS, produsen kendaraan, bintang film, sungai, atau entitas lainnya.
- Pengenalan Pola Entitas yang Diidentifikasi: Fitur seperti nomor telepon, alamat email, jumlah (dengan unit) dapat dikenali melalui pencocokan pola atau pencocokan pola lainnya.
- Pengelompokan dokumen: identifikasi set dokumen teks yang serupa.
- Coreference: identifikasi frasa benda dan istilah lain yang merujuk pada objek yang sama.
- Ekstraksi Hubungan, Fakta, dan Peristiwa: identifikasi asosiasi di antara entitas dan informasi lain dalam teks.
- Analisis sentimen melibatkan membedakan materi subjektif (dibandingkan dengan faktual) dan mengekstrak berbagai bentuk informasi sikap: sentimen, pendapat, suasana hati, dan emosi. Teknik analisis teks membantu menganalisis sentimen pada tingkat entitas, konsep, atau topik dan membedakan pemegang pendapat dan objeknya.
- Analisis teks kuantitatif adalah seperangkat teknik yang berasal dari ilmu sosial di mana baik seorang hakim manusia atau komputer mengekstrak hubungan semantik atau tata bahasa antara kata-kata untuk menemukan makna atau pola gaya, biasanya, teks personal kasual untuk tujuan profil psikologis, dll.
- Pra-pemrosesan biasanya melibatkan tugas-tugas seperti tokenisasi, penyaringan, dan stemming.
Penerapan Teknologi Penambangan Teks
Teknologi penambangan teks kini secara luas diterapkan dalam berbagai kebutuhan pemerintahan, penelitian, dan bisnis. Semua kelompok ini dapat menggunakan penambangan teks untuk manajemen catatan dan mencari dokumen yang relevan dengan kegiatan sehari-hari mereka. Profesional hukum misalnya, dapat menggunakan penambangan teks untuk e-discovery. Pemerintah dan kelompok militer menggunakan penambangan teks untuk kepentingan keamanan nasional dan intelijen. Para peneliti ilmiah menggabungkan pendekatan penambangan teks ke dalam upaya untuk mengorganisir set data teks besar (yaitu, mengatasi masalah data yang tidak terstruktur), untuk menentukan gagasan-gagasan yang disampaikan melalui teks (misalnya, analisis sentimen di media sosial), dan untuk mendukung penemuan ilmiah di bidang ilmu kehidupan dan bioinformatika. Di dunia bisnis, aplikasi digunakan untuk mendukung intelijen kompetitif dan penempatan iklan otomatis, di antara banyak kegiatan lainnya.
- Aplikasi Keamanan
- Aplikasi Biomedis
- Aplikasi Perangkat Lunak
- Aplikasi Media Online
- Aplikasi Bisnis dan Pemasaran
- Analisis Sentimen
- Penambangan Literatur Ilmiah dan Aplikasi Akademis
- Ilmu Digital dan Sosiologi Komputasi
Teknologi penambangan teks telah membuka peluang baru yang luas untuk berbagai kebutuhan, dari keamanan hingga bisnis, menawarkan cara yang efektif untuk mengelola, menganalisis, dan memanfaatkan informasi yang terkandung dalam teks. Dengan kemampuannya untuk menggali wawasan dari data yang tidak terstruktur, penambangan teks memberikan kontribusi yang berharga bagi kemajuan di berbagai bidang dan sektor.
Dampak Teknologi Penambangan Teks dalam Pencarian dan Analisis Konten
Hingga baru-baru ini, pencarian berbasis teks yang paling umum digunakan oleh situs web hanya dapat menemukan dokumen yang mengandung kata-kata atau frasa yang ditentukan pengguna. Namun, dengan penggunaan web semantik, penambangan teks sekarang dapat menemukan konten berdasarkan makna dan konteks (bukan hanya berdasarkan kata-kata tertentu). Selain itu, perangkat lunak penambangan teks dapat digunakan untuk membangun catatan besar informasi tentang orang dan peristiwa tertentu.
Misalnya, dataset besar berdasarkan data yang diekstraksi dari laporan berita dapat dibangun untuk memfasilitasi analisis jaringan sosial atau kontra-intelijen. Secara efektif, perangkat lunak penambangan teks dapat berperan dalam kapasitas yang mirip dengan analis intelijen atau pustakawan riset, meskipun dengan cakupan analisis yang lebih terbatas. Penambangan teks juga digunakan dalam beberapa filter spam email sebagai cara untuk menentukan karakteristik pesan yang kemungkinan adalah iklan atau materi yang tidak diinginkan lainnya. Penambangan teks memainkan peran penting dalam menentukan sentimen pasar keuangan.
Disadur dari: en.wikipedia.org/wiki