Laporkan Masalah

Hierarchical agglomerative clustering untuk sistem temu kembali dokumen bahasa Indonesia

FEBRUARIYANTI, Herny, Drs. Edi Winarko, M.Sc., Ph.D

2010 | Tesis | S2 Ilmu Komputer

Proses temu kembali dokumen yang tersimpan dalam basis data dokumen seringkali menghasilkan dokumen yang jumlahnya sangat besar dan diantaranya banyak dokumen yang tidak relevan dengan yang diinginkan. Salah satu cara untuk menguji kelemahan ini adalah dengan mengelompokkan (mengklaster) terlebih dahulu dokumen-dokumen dalam database. Penelitian ini berusaha untuk mengklaster dokumen dengan menggunakan Algoritma Hierarchical Agglomerative Clustering. Klastering ini ditekankan untuk dokumen berbahasa Indonesia. Keterkaitan antar dokumen diukur berdasarkan kemiripan antar dokumen ( similarity). Algoritma ini diuji coba dengan menggunakan naskah publikasi SNATI UII dari tahun 2004-2009. Hasil uji coba menunjukkan bahwa algoritma ini dapat diaplikasikan untuk pengelompokan dokumen berbahasa Indonesia. Pemilihan kata kunci yang tepat akan meningkatkan kualitas temu kembali informasi (information retrieval) pada dokumen. Kualitas ini tercermin dari tingkat recall 0.6 dan precision 0.5.

Document retrieval process stored in document database often produces very large numbers of documents. And many documents are available is not relevant to the desired document. Clustering the documents in database before retrieval is one way to find relevant documents This study attempted to document be clustered using Agglomerative Hierarchical Clustering Algorithms. It emphasized clustering to documents written in Indonesian, because today, the needs of users in the homeland of information is increasing. The relationship between documents can be measured by the similarity between the documents (similarity). This algorithm was tested by using the documents from UII SNATI publications from 2004-2009. The experimental results show that this algorithm can be applied to group documents written in Indonesian. The selection of appropriate keywords will increase the quality of information retrieval to the document. This quality is reflected in the recall rates 0.6 and 0.5 precision

Kata Kunci : Information retrieval,Stemming,Cosine similarit,Hierarchical agglomerative clustering


    Tidak tersedia file untuk ditampilkan ke publik.