Laporkan Masalah

Algoritma stemming untuk dokumen teks Bahasa Jawa

AGUSTA, Ledy, Drs. Agus Harjoko, M.Sc., Ph.D

2009 | Tesis | S2 Ilmu Komputer

Pencarian informasi berupa dokumen teks atau yang dikenal dengan istilah Information Retrieval (IR) merupakan proses pemisahan dokumen-dokumen yang dianggap relevan dari sekumpulan dokumen yang tersedia. Bertambahnya jumlah dokumen teks yang dapat diakses diinternet diikuti dengan meningkatnya kebutuhan pengguna akan perangkat pencarian informasi yang efektif dan efisien. Efektif berarti user mendapatkan dokumen yang relevan dengan query yang diinputkan. Efisien berarti waktu pencarian yang sesingkat-singkatnya. Search Engine adalah salah satu aplikasi IR yang tak lepas dari kebutuhan akan dukungan perangkat indexing dan query expansion. Stemming adalah proses mentransformasikan kata-kata dalam sebuah dokumen teks ke bentuk kata dasarnya. Bentuk kata dasar inilah yang kemudian akan disimpan sebagai indeks. Selain untuk indexing, stemming juga dapat digunakan untuk query expansion. Algoritma stemming untuk bahasa yang satu berbeda dengan algoritma untuk bahasa lainnya, karena masing-masing bahasa memiliki struktur morfologi yang berbeda satu dengan yang lain. Sehingga pemilihan algoritma stemming yang sesuai sangat menentukan performa sistem IR juga proses indexing dan query expansion pada Search Engine. Dengan alasan diatas maka dalam penelitian ini akan dikembangkan Algoritma Stemming Bahasa Jawa. Hasil yang diperoleh dari penelitian ini adalah sebuah algoritma stemming untuk dokumen teks Bahasa Jawa yang telah diujikan pada 30 dokumen teks bahasa jawa. Pengujian efektifitas dan efisiensi menggunakan parameter presisi dan waktu proses. Berdasarkan hasil pengujian disimpulkan bahwa performa algoritma stemming dipengaruhi ukuran kamus yang digunakan. Selain itu diketahui bahwa kesalahan stem terjadi karena stem tidak sesuai dengan stem pada kamus, kata tidak ditemukan dalam kamus sehingga stem diasumsikan salah, kata adalah bahasa asing.

Information Retrieval (IR) is a process to retrieve the relevant documents from set of documents in database. Increasing amount of text documents on internet followed by increasing of needed of effectiveness and efficiency IR tools. Effective is to find documents that relevant with query. And efficient is to find relevant documents as fast as possible. Search Engine is an aplication of IR system depends on indexing and query expansion tools’s support. Stemming is a process to transform all word in text document to rootword form. Rootword then saved as index. Stemming is used for query expansion too. Stemming Algorithms are different for every single language. It caused by different morfology between them. So, using the appropriate algorithm will give best performance IR system, indexing and query expansion. Because of that, goal of this research is to develop a stemming algorithm for java language. Final result of this research is a stemming algorithm for javanese language that have evaluated to 30 javanese language text documents. Efectiveness and efficiency evaluation is doing by counting precision and process time of stemming. Based on the result of evaluation we concluded that size of dictionary influence stemmer performance. Besides that also known that error can caused by stem is different from stem in dictionary, the word not found in dictionary so it’s assumed as an error or the word is a foreign language.

Kata Kunci : Stemming bhasa jawa,information retrieval, Stemming bahasa jawa, information retrieval


    Tidak tersedia file untuk ditampilkan ke publik.