Laporkan Masalah

PARALELISASI MAXIMUM ENTROPY PART OF SPEECH TAGGING UNTUK BAHASA INDONESIA DENGAN MAPREDUCE

Arif Nurwidyantoro, Drs. Edi Winarko, M.Sc., PhD.

2011 | Tesis | S2 Ilmu Komputer

Penelitian dalam pemrosesan bahasa natural menunjukkan bahwa penggunaan data yang lebih banyak dapat meningkatkan akurasi. Pemrosesan data berukuran besar pada komputer tunggal memiliki keterbatasan yang dapat diatasi dengan memproses data secara paralel. Penelitian ini memanfaatkan model pemrograman MapReduce pada partof-speech (POS) tagging. MapReduce adalah model pemrograman yang dikembangkan untuk memproses data berukuran besar, sedangkan POS tagging merupakan salah satu tahapan awal dalam pemrosesan bahasa natural. Metode part-of-speech tagging yang digunakan adalah Maximum Entropy pada dokumen berbahasa Indonesia. Penerapan model MapReduce dilakukan pada bagian-bagian dalam proses pelatihan dan pemberian anotasi. Penerapan model MapReduce pada proses pelatihan dilakukan pada pembuatan kamus, tagtoken, pembuatan feature, dan proses perhitungan menggunakan improved iterative scaling (IIS). Model MapReduce ternyata tidak dapat diimplementasikan dalam proses perhitungan IIS karena adanya pembaruan parameter peluang yang saling berkaitan, sehingga tidak dapat dilakukan secara paralel. Percobaan dilakukan menggunakan corpus pelatihan berukuran 100.000 dan 1.000.000 kata dari Pan Localization dan corpus pelatihan berukuran 12.000 kata dalam penelitian Wicaksono dan Purwarianti. Hasil percobaan menunjukkan jumlah waktu pelatihan menggunakan MapReduce lebih cepat dibandingkan tanpa menggunakan MapReduce. Namun, waktu baca hasil MapReduce dalam proses pelatihan memperlambat waktu pelatihan keseluruhan. Percobaan proses pemberian anotasi dilakukan menggunakan jumlah proses map dan reduce yang berbeda pada corpus dengan berbagai macam ukuran yang didapatkan dari situs-situs berita. Hasil percobaan menunjukkan implementasi MapReduce dapat mempercepat waktu pemberian anotasi. Hasil tercepat diperlihatkan pada pemberian anotasi menggunakan corpus pelatihan berukuran 1.000.000 kata menggunakan 30 proses map.

Researches in natural languange processing indicated that more data led to better accuracy. Processing this large scale of data using single machine has its own limitation that can be handled by processing data in parallel. This research used MapReduce on part-of-speech (POS) tagging. MapReduce is programming model developed for processing large data, while POS tagging is one the earliest steps in natural language processing. POS tagging approach used in this research is Maximum Entropy model in Bahasa Indonesia. MapReduce model is implemented in some parts of training and tagging process. MapReduce is implemented in dictionary, tagtoken, and feature creation, and also in calculation using improved iterative scaling (IIS). It is found out that calculation using IIS could not implemented using MapReduce model, because there is updating probability parameters that closely related so that it could not implemented in parallel. The experiments conducted using 100,000 and 1,000,000 words training corpus from Pan Localization and 12,000 words training corpus used in Wicaksono and Purwarianti's research. The experiments showed that total training time using MapReduce is faster than without using it. However, MapReduce's result reading time inside training process slow down the training total time. Tagging experiments conducted using different numbers of map and reduce process on different sizes corpora gathered from various news sites. The experiments showed MapReduce implementation could speedup the tagging process. The fastest result is shown by tagging process using 1,000,000 words corpus and 30 map process.

Kata Kunci : maximum entropy, part-of-speech, mapreduce


    Tidak tersedia file untuk ditampilkan ke publik.