Laporkan Masalah

IMPLEMENTASI VECTOR SPACE MODEL (VSM) UNTUK TEMU KEMBALI INFORMASI WEB DAN PENGELOMPOKAN HASILNYA

Ferry Teguh Setiawan, ST., Dr. Ahmad Ashari, M.Kom.

2011 | Tesis | S2 Ilmu Komputer

Masalah yang dihadapi oleh seorang pencari informasi (data) melalui internet saat ini adalah bukanlah ketiadaan informasi melainkan terlalu banyaknya informasi yang tersedia, walupun terkadang ketersediaan informasi tersebut belum sesuai dengan keinginan yang didapatkan. Oleh karena itu diperlukan suatu sistem yang dapat menemukan informasi pada halaman website sesuai dengan relevansi (kemiripan) yang diinginkan oleh user (pengguna). Pengelompokan dokumen hasil proses temu kembali informasi berdasarkan kemiripannya, sebelum ditampilkan kepada user (pengguna) diharapkan dapat meningkatkan efektivitas user dalam penelusuran dokumen web. Penelitian ini mengimplementasikan model Vector Space Model (VSM) untuk melakukan temu kembali informasi dokumen web, yaitu dengan mengukur tingkat kemiripan antara vektor dokumen dengan vektor query. Model representasi data untuk pengindeksan dokumen menggunakan model inverted index, diimplementasikan menggunakan Library Lucene dengan platform Java, termasuk didalamnya proses stemming untuk kata-kata bahasa Indonesia, diharapkan dapat meningkatkan performansi hasil implementasi temu kembali informasi, yang diukur berdasarkan nilai recall-precision dan didapatkan nilai sebesar 0,6 untuk F-measure. Algoritma K-Means sebagai suatu pengelompokan model partitional dan Bisecting K-Means sebagai model gabungan Hierarchical (divisive) dan partitional, digunakan untuk implementasi pengelompokan dokumen sebagai hasil proses temu kembali informasi, kualitas hasil pengelompokan diukur dengan metode eksternal yaitu F-Measure dan metode internal Intra-Cluster Similarity Technique (IST). Koleksi dokumen web yang akan digunakan untuk pengujian diambil dari portal situs berita berbahasa Indonesia dalam kategori ekonomi, bisnis dan keungan dengan jumlah halaman sebanyak 26.240 dokumen html. Dari hasil pengujian nilai F-Measure untuk kedua metode relatif sama yaitu sebesar 0,75, tetapi ada perbedaan untuk nilai IST, pengelompokan metode Bisecting KMeans dapat mencapai nilai IST terbaik yaitu 0,8 sebesar 10 % dan K-means hanya mencapai 7%.

The problems faced by a seeker of information via the internet today is not the lack of information but too much information available, even though sometimes the availability of such information has not been obtained in accordance with the wishes. Therefore we need a system that can find the information through the website according to relevance (similarity) desired by the user. Clustering the document, the result of the process of information retrieval based on similarity, before they are displayed to the user (users) are expected to increase the effectiveness of web users in search of documents. Data representation model for the indexing of documents using inverted index model, implemented using Lucene Library with the Java platform, including the process of stemming in the Indonesian language, expected to improve the performance results of the implementation of information retrieval, which is measured based on recall-precision value and obtained value of 0.6 for the Fmeasure. K-Means algorithm as a clustering partition model and Bisecting K-Means as a combined model Hierarchical (divisive) and partition, used for grouping of documents as a result of the implementation process of information retrieval, the quality of clustering is measured by the external method that is F-Measure and internal method Intra-Cluster Similarity Technique (IST). Collection of web documents that will be used for testing were taken from Indonesian language news portal site in the category of economics, business and financial district with 26.240 the number of pages as html documents. From the test results of FMeasure value for both methods are relatively the same at 0.75, but for the IST is difference, Bisecting K-Means method to achieve the best IST value is 0.8 at 10% and K-Means only reached 7%.

Kata Kunci : vector space model, information retrieval, lucene, clustering, k-means


    Tidak tersedia file untuk ditampilkan ke publik.