T And s

Sistem ekstraksi abstrak, pencarian dan klastering hasil pencarian berdasarkan abstrak dokumen

Penulis

Andrianto, Thomas

Pembimbing: Drs. Edi Winarko, M.Sc., Ph.D


ABSTRACT: Along with the growth of information technology, the amount of document is increasing. In this context the effort to find information by accessing, analyzing, and processing of text documents in a very short time become a common thing to do. Currently many techniques to analyze and classify text documents into specific categories on the basis of the similarity of text documents known as clustering. Abstract as a representation of text documents can be used as a basis of doing clustering text documents. But to extract the abstract text document is required of a particular mechanism. In this research an algorithm used to extract the abstract of text documents developed. Based on the abstract of text document a text document clustering system built using Carrot2 framework. The clustering process based on the text document’s abstract in order to reduce the processing time. In this system, the process of indexing and searching done by using Apache Lucene Library and based on the content of the text document. As for the process of clustering implementing the algorithm Suffix Tree Clustering (STC) and Lingo contained in Carrot2 framework. Based on the test results it concluded that the abstract extraction of text documents algorithm developed have a success ratio of 92.31%. Tests conducted on indexing process 15 documents and it concluded that the average time required for indexing is 263,6667 ms and the average size of index is 1724,93 byte. In the test obtained a search process conclude that the average time required to obtain a document is 1.4148 ms. Clustering testing is done by comparing the number of clusters and the time to do clustering between STC and the Lingo algorithm and obtained the conclusion that the Lingo algorithm produces clusters of more and require more time to do a document comparison algorithm clustering STC.

INTISARI: Seiring dengan pertumbuhan teknologi informasi, jumlah dokumen teks pun semakin meningkat. Dalam konteks ini maka usaha untuk menggali informasi dengan mengakses, menganalisa, dan memproses dokumen teks dalam waktu yang sangat singkat menjadi hal yang lazim untuk dilakukan. Pada saat ini terdapat teknik yang mampu menganalisa dan mengelompokkan dokumen teks ke dalam kategori tertentu bedasarkan kesamaan dokumen teks yang dikenal sebagai klastering. Abstrak sebagai representasi dari dokumen teks dapat dipergunakan sebagai dasar dalam melakukan klastering dokumen teks. Namun untuk mengekstrak abstrak dokumen teks diperlukan sebuah mekanisme tertentu. Di dalam penelitian ini dikembangkan sebuah algoritma yang digunakan untuk mengekstrak abstrak dokumen teks. Berdasarkan abstrak dokumen teks ini dibangun sebuah sistem klastering dokumen teks dengan memanfaatkan framework Carrot2. Proses klastering dilakukan berdasarkan pada abstrak dokumen bertujuan untuk mengurangi waktu yang dibutuhkan untuk proses klastering. Dalam sistem ini, proses pengindeksan dan pencarian dilakukan dengan memanfaatkan Library Apache Lucene dan dilakukan berdasarkan isi dari dokumen teks. Sedangkan untuk proses klastering mengimplementasikan algoritma Suffix Tree Clustering (STC) dan LINGO yang terdapat dalam framework Carrot2. Dari hasil pengujian dapat disimpulkan bahwa algoritma ekstraksi abstrak dokumen teks yang dikembangkan memiliki rasio keberhasilan 92,31%. Pengujian proses pengindeksan dilakukan terhadap 15 dokumen dan dapat disimpulkan bahwa waktu rata-rata yang diperlukan untuk pengindeksan adalah 263,6667 ms dan ukuran indeks rata-rata adalah 1724,93 byte. Pada pengujian proses pencarian diperoleh kesimpulan bahwa waktu rata-rata yang diperlukan untuk mendapatkan sebuah dokumen adalah 1,4148 ms. Pengujian klastering dilakukan dengan membandingkan jumlah klaster dan waktu untuk melakukan klatering antara algoritma STC dan LINGO dan diperoleh kesimpulan bahwa algoritma LINGO menghasilkan jumlah klaster yang lebih banyak dan membutuhkan waktu yang lebih dalam melakukan klastering dokumen dibandingkan algoritma STC.

Kata kunci Ekstraksi Abstrak, Framework Carrot2, Apache Lucene, STC, LINGO, Abstract extraction, Carrot2 Framework, Apache Lucene, STC, LINGO
Program Studi S2 Ilmu Komputer UGM
No Inventaris c.1 (1468-H-2010)
Deskripsi xvi, 92 p., bibl., ills., 29 cm
Bahasa Indonesia
Jenis Tesis
Penerbit [Yogyakarta] : Universitas Gadjah Mada, 2010
Lokasi Perpustakaan Pusat UGM
File Tulisan Lengkap dapat Dibaca di Ruang Tesis/Disertasi
  • Anda dapat mengecek ketersediaan versi cetak dari penelitian ini melalui petugas kami dengan mencatat nomor inventaris di atas (apabila ada)
  • Ketentuan Layanan:
    1. Pemustaka diperkenankan mengkopi cover, abstrak, daftar isi, bab pendahuluan, bab penutup/ kesimpulan, daftar pusatak
    2. Tidak diperbolehkan mengkopi Bab Tinjauan Pustaka, Bab Pembahasan dan Lampiran (data perusahaan/ lembaga tempat penelitian)
    3. Mengisi surat pernyataan, menyertakakan FC kartu identitas yang berlaku

<< kembali