Laporkan Masalah

Perbandingan algoritma ant colony optimization, forgy dan isodata untuk klastering dokumen hasil pencarian

DAVID, Drs. Edi Winarko, M.Sc., Ph.D

2009 | Tesis | S2 Ilmu Komputer

Klastering dokumen merupakan salah satu topik penelitian yang popular dalam data mining. Pada penelitian ini membuat sistem aplikasi klastering dokumen hasil pencarian menggunakan algoritma klastering Ant Colony Optimization, Forgy dan ISODATA. Aplikasi yang dibangun dapat digunakan untuk mengelompokkan dokumen hasil pencarian dan memudahkan pencarian dokumen. Dokumen yang diklasteringkan hanya untuk artikel pada jurnal, tesis, proposal tesis, ebook dan dokumen lainnya. Indexing dan searching dokumen menggunakan Lucene sebagai search engine. Algoritma Ant Colony Optimization dibandingkan dengan metode partitioning clustering lainnya yaitu Forgy dan ISODATA untuk klastering dokumen. Perbandingan yang dilakukan adalah pengujian waktu proses klastering, nilai rasio variance dan nilai Sum Squared Error. Eksperimen dilakukan terhadap kumpulan dokumen dan sejumlah dataset. Dalam penelitian ini disimpulkan bahwa secara keseluruhan hasil klastering dari ketiga metode tersebut memiliki nilai rasio variance yang hampir sama dan masing-masing hasil klastering menghasilkan intraclass similarity yang tinggi dan interclass similarity yang rendah. Klastering menggunakan algoritma Ant Colony Optimization memerlukan waktu paling lama diantara ketiga algoritma.

Document clustering is a popular research topic in data mining. Research on this system makes the clustering application of search result documents using Ant Colony Optimization, Forgy and ISODATA clustering algorithms. Applications are built can be used to classification search result documents and documents search easier. Documents that are only for the article from journal, thesis, ebook and other documents. Indexing and searching documents using Lucene as a search engine. Ant Colony Optimization algorithm is compared with other two clustering methods Forgy and ISODATA for clustering documents. Comparison is made the test of clustering time process, the variance ratio and the value of Sum Squared Error. Experiments are carried out on the collection of documents and a number of datasets. This research concludes that the three clustering methods has similar value of variance ratio, and high intraclass similarity and low interclass similarity. The clustering algorithm using Ant Colony Optimization requires the longest time..

Kata Kunci : Klastering dokumen,Ant colony optimization,Forgy,ISODATA, Document Clustering


    Tidak tersedia file untuk ditampilkan ke publik.