ALGORITMA PORTER STEMMER FOR BAHASA INDONESIA UNTUK PRE-PROCESSING TEXT MINING BERBASIS METODE MARKET BASKET ANALYSIS
oleh:
Gregorius S. Budhi1 ; Ibnu Gunawan2 ; Ferry Yuwono3
1) Dosen UK Petra Jurusan Teknik Informatika
2) Dosen UK Petra Jurusan Teknik Informatika
Email: ibnu@petra.ac.id
3) Alumni UK Petra Jurusan Teknik Informatika
ABSTRAK
Belakangan ini semakin populer penggunaan Data Mining untuk menggali informasi dari data mentah. Salah satu metode yang menarik adalah Text Mining, yang digunakan untuk menggali informasi dari data - data dalam bentuk teks seperti buku, makalah, paper, dan lain sebagainya. Kesulitan yang cukup dominan pada Teks Mining adalah bagaimana data - data dalam bentuk teks dapat dirubah formatnya agar informasi yang mungkin ada dalam teks-teks tersebut dapat diekstraksi dengan baik.
Pada paper ini peneliti mengajukan penggunaan algoritma Porter Stemmer for Bahasa Indonesia[8], untuk proses Stemmer pada langkah pre-processing yang merubah sebuah teks dalam bahasa Indonesia menjadi bentuk Compact Transaction. Compact Transaction digunakan sebagai masukan untuk proses Keyword-Based Association Analysis, sebuah metode Text Mining yang dikembangkan dari metode Market Basket Analysis, digunakan untuk membentuk rule-rule asosiasi dari data teks.
Pengujian dilakukan mengggunakan sample data teks dalam bahasa Indonesia berupa Abstrak Tugas Akhir mahasiswa Universitas Kristen Petra Surabaya. Dari hasil pengujian dapat disimpulkan bahwa algoritma Porter Stemmer for Bahasa Indonesia dapat digunakan pada proses Stemmer saat merubah sebuah data teks dalam bahasa Indonesia menjadi bentuk Compact Transaction. Hasil dari proses ini tidak selalu benar sehingga masih diperlukan pemeriksaan manual.
Kata Kunci:
Porter Stemmer for Bahasa Indonesia, Text Mining Pre-processing, Keyword-Based Association Analysis, Market Basket Analysis
1. Pendahuluan
Belakangan ini semakin populer penggunaan Data Mining untuk menggali informasi dari data mentah. Salah satu bagian dari Data Mining yang cukup menarik adalah Text Mining. Metode ini digunakan untuk menggali informasi dari data - data dalam bentuk teks seperti buku, makalah, paper, dan lain sebagainya.
Keyword-Based Association Analysis adalah sebuah metode pada Text Mining yang dikembangkan dari metode Market Basket Analysis. Untuk melakukan proses Keyword-Based Association Analysis data dalam bentuk teks harus dirubah dahulu menjadi format Compact Transaction, yang berisi Document_ID dan Set_of_Keywords. Ada beberapa hal yang perlu dilakukan pada tahap pre-processing ini, yaitu: Parsing, Stemming, Removing Stopwords dan sebagainya.
Dokumen dalam bahasa indonesia mempunyai keunikan tersendiri, karena kata - kata dalam bahasa indonesia dapat berubah bentuk saat mendapatkan imbuhan. Akibat dari hal proses Stemmer dari dokumen berbahasa Indonesia, yaitu proses mengembalikan kata ke bentuk dasar, memerlukan teknik tersendiri yang berbeda dengan teknik Stemmer pada bahasa - bahasa lain. Pada paper ini, peneliti menerapkan algoritma Porter Stemmer for Bahasa Indonesia, yang dikembangkan oleh Fadillah Z. Tala pada tahun 2003, guna proses Stemmer pada tahap pre-processing data teks menjadi bentuk Compact Transaction.
0 komentar:
Post a Comment
Silahkan masukkan saran, komentar saudara, dengan ikhlas saya akan meresponnya.