Laporkan Masalah

EVALUASI STOP WORD DAN STEMMING RETRIEVAL TEKS MENGGUNAKAN LATENT SEMANTIC INDEXING PADA BAHASA INDONESIA

SAHIRUL ALIM T.B, Teguh Bharata Adji, S.T., M.T., M. Eng., Ph.D.;Widyawan, S.T., M. Sc., Ph.D.

2014 | Tesis | S2 Teknik Elektro

Search engine memudahkan manusia dalam mendapatkan informasi berupa teks yang tersimpan dalam banyak dokumen elektronik (soft copy). Dokumen yang berbentuk elektronik kemudian mengalami proses pengubahan kata-kata di dalam dokumen menjadi kata dasar yang disebut stemming dan penghapusan beberapa kata yang dianggap tidak penting yang disebut stop word untuk meningkatkan akurasi hasil pencarian. Ditambahkannya proses tersebut tentunya memberikan beban komputasi di dalam program sedangkan pada penelitian sebelumnya penggunaan proses tersebut pada bahasa dan teknik pencarian pola kata yang berbeda memberikan nilai akurasi yang berbeda. Penelitian ini dilakukan untuk mengetahui nilai akurasi penggunaan proses stemming dan stop word. Teknik kesamaan pola kata yang digunakan adalah Singular Value Decomposition yang merupakan bagian dari LSI. Teknik tersebut diterapkan pada Bahasa Indonesia untuk mengetahui akurasi penggunaan stemming dan stop word. Nilai akurasi didapat dari pengujian dengan menggunakan recall dan precision. Hasil yang diperoleh dari penelitian yang telah dilakukan adalah mengenai penggunaan stemming dan stop word. Penggunaan stop word dapat meningkatkan recall dan menurunkan precision. Berbeda dengan stop word penggunaan stemming tidak terlalu berpengaruh terhadap nilai recall dan precision.

Abstract — The search engine enables people to obtain information in the form of text stored in many electronic documents. Documents in electronic form having process of word changing called word stemming and unimportant words removal called stop word to improve the accuracy of search result. The addition of those processes would provide computational load in the program while based on the previous studies, the use of those processes with different language and word search technique patterns give different accuracy. This study was conducted to determine the accuracy with the use of stemming and stop word. Singular Value Decomposition, which is part of Latent Semantic Indexing, is used as the word pattern similarity tehnique. The technique is applied to Bahasa Indonesia to determine the accuracy of the use of stemming and stop word. The accuracy value is obtained from the testing using recall and precision. Based on the result of this research, the use of stop word can improve recall and reduce precision. Unlike stop word, the use of stemming did not significantly affect the value of recall and precision.

Kata Kunci : Latent Semantic Indexing, Singular Value Decomposition, Stemming, Stop Word, Recall, Precision


    Tidak tersedia file untuk ditampilkan ke publik.