Implementasi algoritma Othman untuk Stemming kalimat bahasa Indonesia
DALI, Sri Wahyuni, Ir. F. Soesianto, BSc.E.,Ph.D
2004 | Tesis | S2 Teknik ElektroStemming adalah proses yang mengembalikan suatu kata dalam suatu dokumen ke dalam bentuk dasarnya dengan memisahkan masing- masing kata dari kata dasar dan imbuhannya. Algoritma stemming diaplikasikan pada bidang sistem temu kembali informasi dan komputasi liguistik. Dalam bahasa Malaysia ada satu algoritma stemming yang telah dikembangkan dan diuji di bidang sistem temu kembali informasi, yang dikenal dengan nama algoritma Othman. Karena adanya beberapa perbedaan antara morfologi bahasa Indonesia dan morfologi bahasa Malaysia, maka algoritma Othman tidak dapat begitu saja diterapkan untuk bahasa Indonesia. Penelitian ini bertujuan membuat pengembangan algoritma stemming untuk teks bahasa Indonesia, yang dikembangkan dari algoritma Othman dengan memodifikasi aturan imbuhan, kamus kata dasar yang digunakan, serta perubahan urutan proses penentuan kata dasar. Ada tiga algoritma yang dikembangkan, dan diimplementasikan dalam bahasa pemrograman C dan C++ Builder sebagai antarmukanya. Penelitian ini merupakan proses rekayasa perangkat lunak yang dimulai dari tahap perumusan masalah dan perencanaan, tahap analisis, tahap disain, tahap implementasi dan diakhiri dengan tahap pengujian yaitu menguji aplikasi yang telah dibuat dan mengevaluasi kinerja metode pemenggalan kata untuk mendapatkan kata dasar yang benar. Dari ketiga algoritma yang dikembangkan , variasi_1 algoritma Othman memberikan hasil yang terbaik karena menghasilkan kata yang salah paling sedikit dibandingkan dengan algoritma-algoritma lainnya dengan persentase keberhasilan mengembalikan suatu kata jadian ke dalam bentuk kata dasarnya sebesar 98,19%. Hal ini menunjukkan bahwa algoritma Othman dapat diaplikasikan dalam bahasa Indonesia dengan memodifikasi aturan imbuhan dan kamus yang dipakai sesuai dengan morfologi bahasa Indonesia.
Stemming is a process to restore words from a document to its root forms, by separating each word from its derivational and affixes. A stemming algorithm has been applied in information retrieval and computational linguistics. In Malay there is one stemming algorithm that has been developed and tested for application in information retrieval which is known as Othman algorithm. There are few differences between of Bahasa Indonesia morphology and Malay morphology, so The Othman algorithm can not be applied directly in Bahasa Indonesia. The aim of this thesis is to modify Othman algorithm for Bahasa Indonesia by modifying rule of affixes, dictionary of root words, and various stemming procedures. There are three algorithms which are designed and implemented in C language programming and C++ Builder tool for user interface. The research is a software engineering process which consists of problem formulation phase, analysis phase, design phase, implementation phase, and validation phase. The validation phase tests application software and evaluates the word separation methods which yield right root words. Among the three algorithms which are proposed, the first algorithm, variasi_1 algoritma Othman yields the best result than others. It yields the least error in searching roots words and has efficacy of 98.19 %. It concluded that Othman Algorithm can be applied in Bahasa Indonesia by modifying rule of affixes and dictionary which match to Bahasa Indonesia morphology.
Kata Kunci : Komputasi Linguistik,Algoritma Stemming,Temu Kembali Informasi, Stemming, Othman Algorithm, Information Retrieval.