Laporkan Masalah

Penerapan clustering dokumen untuk meningkatkan efektivitas sistem temu kembali informasi dokumen berbahasa Indonesia

HAMZAH, Amir, Promotor Prof. Adhi Susanto, M.Sc., Ph.D

2009 | Disertasi |

Sistem temu kembali informasi teks saat ini menghadapi kesulitan karena melimpahnya dokumen teks. Model ruang vektor sebagai suatu model temu kembali yang menggunakan kata sebagai dasar pencocokan memiliki kelemahan inheren karena faktor sinonymy dan polysemy dalam bahasa dimana dokumen yang mengandung kata dalam query belum tentu relevan dan dokumen relevan belum tentu mengandung kata dalam query. Melimpahnya data juga menyebabkan jawaban sistem berupa list memanjang yang tidak efektif terbaca oleh pengguna. Penelitian ini memperkenalkan metode baru dalam memilih feature untuk clustering, dalam melakukan pencarian dokumen dan dalam menyajikan hasil pencarian dengan menerapkan teknik clustering dokumen. Diajukan teknik pemilihan feature untuk clustering, yaitu clustering berbasis konsep dan tiga teknik pencarian dokumen berbasiskan aplikasi teknik clustering, yaitu CBR, CptBR dan SRClus. Penelitian ini juga menelaah penggunaan frasa dan kata dalam clustering dokumen, metode memilih kata yang tepat sebagai penciri dalam dokumen menggunakan analisis varians frekuensi kata, serta bagaimana melakukan optimasi jumlah kluster dan updating kluster. Hasil pengujian dengan menggunakan 12 koleksi dokumen berita dengan maksimal 3000 dokumen, 2 koleksi dokumen akademik, yaitu 88 dan 450 abstrak akademik, 1 koleksi dokumen statis dengan 358 dokumen, menunjukkan bahwa dengan 15% sampai 20% yang dipilih dengan analisis varian cukup untuk melakukan clustering dengan baik. Dibanding metode IFS, temu kembali dengan metode CBR meningkatkan kinerja sekitar 2,5% tetapi belum signifikan, metode CptBR meningkatkan signifikan 8,74% sampai 14,9%, dan metode SRClus meningkatkan signifikan 8,71% sampai 28,13%. Untuk koleksi statis ketiga metode meningkatkan kinerja berurut-turut 11,56% (CBR), 13,53% (CptBR) dan 22,19% (SRClus). Peningkatan efektivitas temu kembali ini lebih baik dari metode LSI dan MAXENT yang dijadikan pembanding. Penelitian ini juga menawarkan suatu algoritma optimasi cacah kluster berbasis similaritas dokumen yang memiliki efisiensi lebih baik dari pada metode statistik yang telah ada. Juga menawarkan skema pengupdate-an kluster yang sangat berguna untuk penerapan pada koleksi dokumen dinamis dan perpaduan dengan teknik lain dalam temu kembali dokumen dinamis seperti internet.

Text information retrieval systems nowadays faced difficulties because of text abundance. The Vector space model as a retrieval system which utilitizes words as the basic of matching is known to have weakness because of sinonymy and polysemy factors where a document containing query terms does not necessarily mean that a document is relevant and a relevant document does not necessarily contain query terms. The flood of textual data has caused the system to produce long list search results that are not effectively readable to the users. This research offers a new method in feature selection for clustering, in a documnet retrieval and presents the search results by utiltyzing document clustering. It is proposed method of feature selection for clustering, namely concept based clustering and three retrieval techniques based on clustering, namely CBR, CptBR and SRClus. This reseach also elaborates the using of word phrase in document clustering, the method to select appropriate word by using analysis of variance of word frequeny and how to optimize the number of cluster and to update cluster. The test data are 12 new document collection with 3000 maximum documents, 2 academic collection :88 full paper and 450 abstract and 1 static document collection with 358 documents. The results show that 15% or 20% of total term selected by analysis of variance is sufficient for clustering. Compare with IFS, CBR retrieval method improves performance about 2.5% not yet significant, CptBR improve significantly 8.74 %to 14.9% and SRClus improve significantly 8.71% to 28.13%. For static document this three methods improve performance respectively 11.56% (CBR), 13.53%(CptBR) and 22.19%(SRClus). This effectiveness of performance improvements are better than LSI and MAXENT that are used as standard of comparison. This research also proposes an algorithm for optimization of number of cluster based on document similarity that has better efficiency than available statistical methods. In addition, it proposed cluster updating scheme that will be very useful for application in the dynamic document collection and combination to the other tehniques in retrieval system of dynamic document such as internet.

Kata Kunci : Clustering, Efektivitas temu kembali ,Optimasi kluster, Updating kluster


    Tidak tersedia file untuk ditampilkan ke publik.