SISTEM TEMU KEMBALI INFORMASI DOKUMEN TEKS BERBAHASA INDONESIA MENGGUNAKAN MODEL RUANG VEKTOR DENGAN BEBERAPA UKURAN KEMIRIPAN; INDONESIAN TEXT DOCUMENTS INFORMATION RETRIEVAL SYSTEMS USING VECTOR SPACE MODEL WITH SOME OF SIMILARITY MEASURE
Agung Susilo, Azhari SN
2011 | Skripsi | PROGRAM STUDI ILMU KOMPUTERSistem temu kembali informasi merupakan sistem yang dapat membantu menemukan materi yang bersifat tidak terstruktur dalam bentuk dokumen dan memenuhi kebutuhan informasi dari sekumpulan koleksi dokumen yang besar. Sistem temu kembali informasi menerima masukan dari pengguna berupa informasi yang ingin dicari dalam bentuk query, dan memberikan hasil keluaran berupa himpunan materi yang relevan. Sistem temu kembali informasi menyimpan koleksi dokumen dalam bentuk index term. Sebelum pembentukan index term, harus dilakukan preprocessing terlebih dahulu. Preprocessing secara umum memiliki lima tahapan, yaitu: leksikal analisis, penghilangan stopwords, pengambilan akar kata, pemilihan index term, dan pembangunan struktur kategori term. Pada query juga dilakukan proses preprocessing. Penelitian ini menggunakan empat tahap dari tahapan preprocessing. Model sistem temu kembali informasi yang cukup sederhana dan produktif adalah model ruang vektor. Model ruang vektor memperlakukan query dan dokumen sebagai vektor term yang setiap elemennya memiliki bobot, kemudian kedua vektor tersebut dievaluasi derajat kemiripannya menggunakan suatu ukuran kemiripan. Metode pembobotan yang digunakan pada penelitian ini adalah metode salton-buckley untuk query dan metode TF-IDF (Term Frequency Invers Dokumen Frequency) untuk dokumen. Penelitian ini membandingkan tiga ukuran kemiripan yaitu: dice co-efficient, jaccard co-efficient, dan cosine terhadap unjuk kerja sistem temu kembali informasi. Unjuk kerja sistem temu kembali informasi dapat dilihat dari nilai precision dan recall terhadap nilai ambang yang dipakai. Hasil penelitian menunjukkan bahwa ukuran kemiripan cosine secara umum adalah ukuran kemiripan yang memberikan unjuk kerja lebih baik dibandingkan kedua ukuran kemiripan lain, kemudian ukuran kemiripan dice co-efficient diposisi kedua, dan yang terakhir adalah jaccard co-efficient.
Kata Kunci : temu kembali informasi, model ruang vektor, ukuran kemiripan, porter stemmer indonesia