ANALISIS FITUR KALIMAT UNTUK PERINGKAS TEKS OTOMATIS PADA BAHASA INDONESIA
Badrus Zaman, Drs. Edi Winarko, M.Sc., Ph.D.
2011 | Tesis | S2 Ilmu KomputerAutomatic Text Summarization (ATS) adalah teknik pembuatan ringkasan dari sebuah teks secara otomatis dengan memanfaatkan aplikasi komputer untuk menghasilkan informasi yang paling penting dari dokumen aslinya.  Fitur diperlukan untuk melakukan pembobotan kalimat, di antaranya Logâ€TFISF (term frequency index sentence frequency), posisi kalimat (sentence location), kemiripan dengan kalimat pertama (sentence overlap), kemiripan dengan judul (title overlap) dan panjang relatif kalimat (sentence relative length). Pada penelitian ini dilakukan analisis terhadap keâ€5 fitur tersebut dalam rangka penentuan bobot masingâ€masing fitur sehingga akan mendapatkan hasil ringkasan yang koheren. Kelima fitur tersebut diimplementasikan pada sistem peringkas teks otomatis pada bahasa Indonesia yang dikembangkan menggunakan metode relative importance of topics.  Hasil dari percobaan menunjukkan bahwa fitur posisi kalimat memiliki F†Measures tertinggi yakni 0.46 kemudian berturutâ€turut fitur kemiripan dengan kalimat pertama, kemiripan dengan judul, panjang relatif kalimat dan Logâ€TFISF, dengan nilai 0.42, 0.42, 0.35 dan 0.32. Bobot relatif fitur berturutâ€turut dari yang terbesar adalah posisi kalimat, kemiripan dengan kalimat pertama, kemiripan dengan judul, panjang relatif kalimat dan Logâ€TFISF dengan nilai 0.25, 0.22, 0.22, 0.19 dan 0.12. Pembobotan fitur ini diterapkan pada ATS sehingga didapatkan nilai akurasi sebesar 70.62%, lebih tinggi 2,86% dibandingkan ATS dengan bobot fitur sama yaitu sebesar 67,72%. Â
Automatic Text Summarization (ATS) is a technique to create a summary of the document automatically by using computer applications to produce the most important information from the original document. Features are required to perform weighting of sentences, including Logâ€TFISF (term frequency index sentence frequency), sentence location, sentence overlap, title overlap and sentence relative length. This research conducted an analysis of five feature extractions in order to determine the weights of each feature that will get the results of a coherent summary. The five features are implemented in automated text summarization system in Indonesian language that was developed using the method of relative importance of topics. Results from experiments show that sentence location feature has the highest Fâ€Measures namely 0.46 and then consecutive sentence overlap, title overlap, sentence relative length and Logâ€TFISF, with a value of 0.42, 0.42, 0.35 and 0.32. Relative weights of feature consecutive from the largest are sentence location, sentence overlap, title overlap, sentence relative length and Logâ€TFISF with a value of 0.25, 0.22, 0.22, 0.19 and 0.12. These relative weights are implemented on ATS, so we get accuracy of 70.62%. It is more accurate 2,86% than without relative weights which accuracy of 67,72%.Â
Kata Kunci : Automatic Text Summarization (ATS), relative important of topics, Logâ€TFISF, sentence location, sentence overlap, title overlap, sentence relative length, bahasa Indonesia Â