T Feb h

Hierarchical agglomerative clustering untuk sistem temu kembali dokumen bahasa Indonesia

Penulis

Februariyanti, Herny

Pembimbing: Drs. Edi Winarko, M.Sc., Ph.D


ABSTRACT : Hierarchical Agglomerative Clustering for Indonesian Document Retrieval By Herny Februariyanti 08/275395/PPA/02666 Document retrieval process stored in document database often produces very large numbers of documents. And many documents are available is not relevant to the desired document. Clustering the documents in database before retrieval is one way to find relevant documents This study attempted to document be clustered using Agglomerative Hierarchical Clustering Algorithms. It emphasized clustering to documents written in Indonesian, because today, the needs of users in the homeland of information is increasing. The relationship between documents can be measured by the similarity between the documents (similarity). This algorithm was tested by using the documents from UII SNATI publications from 2004-2009. The experimental results show that this algorithm can be applied to group documents written in Indonesian. The selection of appropriate keywords will increase the quality of information retrieval to the document. This quality is reflected in the recall rates 0.6 and 0.5 precision. Keyword : Information Retrieval, Stemming, Cosine Similarity, Hierarchical Agglomerative Clustering.

INTISARI : Hierarchical Agglomerative Clustering untuk Sistem Temu Kembali Dokumen Bahasa Indonesia Oleh Herny Februariyanti 08/275395/PPA/02666 Proses temu kembali dokumen yang tersimpan dalam basis data dokumen seringkali menghasilkan dokumen yang jumlahnya sangat besar dan diantaranya banyak dokumen yang tidak relevan dengan yang diinginkan. Salah satu cara untuk menguji kelemahan ini adalah dengan mengelompokkan (mengklaster) terlebih dahulu dokumen-dokumen dalam database. Penelitian ini berusaha untuk mengklaster dokumen dengan menggunakan Algoritma Hierarchical Agglomerative Clustering. Klastering ini ditekankan untuk dokumen berbahasa Indonesia. Keterkaitan antar dokumen diukur berdasarkan kemiripan antar dokumen ( similarity). Algoritma ini diuji coba dengan menggunakan naskah publikasi SNATI UII dari tahun 2004-2009. Hasil uji coba menunjukkan bahwa algoritma ini dapat diaplikasikan untuk pengelompokan dokumen berbahasa Indonesia. Pemilihan kata kunci yang tepat akan meningkatkan kualitas temu kembali informasi (information retrieval) pada dokumen. Kualitas ini tercermin dari tingkat recall 0.6 dan precision 0.5.

Kata kunci Information retrieval,Stemming,Cosine similarit,Hierarchical agglomerative clustering
Program Studi S2 Ilmu Komputer UGM
No Inventaris c.1 (0011-H-2010)
Deskripsi xii, 147 p., bibl., ills., 29 cm
Bahasa Indonesia
Jenis Tesis
Penerbit [Yogyakarta] : Universitas Gadjah Mada, 2010
Lokasi Perpustakaan Pusat UGM
File Tulisan Lengkap dapat Dibaca di Ruang Tesis/Disertasi
  • Anda dapat mengecek ketersediaan versi cetak dari penelitian ini melalui petugas kami dengan mencatat nomor inventaris di atas (apabila ada)
  • Ketentuan Layanan:
    1. Pemustaka diperkenankan mengkopi cover, abstrak, daftar isi, bab pendahuluan, bab penutup/ kesimpulan, daftar pusatak
    2. Tidak diperbolehkan mengkopi Bab Tinjauan Pustaka, Bab Pembahasan dan Lampiran (data perusahaan/ lembaga tempat penelitian)
    3. Mengisi surat pernyataan, menyertakakan FC kartu identitas yang berlaku

<< kembali