Laporkan Masalah

ANALISIS FITUR KALIMAT UNTUK PERINGKAS TEKS OTOMATIS PADA BAHASA INDONESIA

Badrus Zaman, Drs. Edi Winarko, M.Sc., Ph.D.

2011 | Tesis | S2 Ilmu Komputer

Automatic Text Summarization (ATS) adalah teknik pembuatan ringkasan  dari sebuah teks secara otomatis dengan memanfaatkan aplikasi komputer untuk  menghasilkan  informasi  yang  paling  penting  dari  dokumen  aslinya.  Fitur  diperlukan untuk melakukan pembobotan kalimat, di antaranya Log‐TFISF (term  frequency  index  sentence  frequency),  posisi  kalimat  (sentence  location),  kemiripan  dengan  kalimat  pertama  (sentence  overlap),  kemiripan  dengan  judul  (title  overlap)  dan  panjang  relatif  kalimat  (sentence  relative  length).  Pada  penelitian  ini  dilakukan  analisis  terhadap  ke‐5  fitur  tersebut  dalam  rangka  penentuan  bobot  masing‐masing  fitur  sehingga  akan  mendapatkan  hasil  ringkasan  yang  koheren.  Kelima  fitur  tersebut  diimplementasikan  pada  sistem  peringkas  teks  otomatis  pada  bahasa  Indonesia  yang  dikembangkan  menggunakan metode relative importance of topics.   Hasil dari percobaan menunjukkan bahwa fitur posisi kalimat memiliki F‐ Measures  tertinggi  yakni  0.46  kemudian  berturut‐turut  fitur  kemiripan  dengan  kalimat pertama, kemiripan dengan judul, panjang relatif kalimat dan Log‐TFISF,  dengan nilai 0.42, 0.42, 0.35 dan 0.32. Bobot relatif fitur berturut‐turut dari yang  terbesar  adalah  posisi  kalimat,  kemiripan  dengan  kalimat  pertama,  kemiripan  dengan judul, panjang relatif kalimat dan Log‐TFISF dengan nilai 0.25, 0.22, 0.22,  0.19  dan  0.12.  Pembobotan  fitur  ini  diterapkan  pada  ATS  sehingga  didapatkan  nilai akurasi sebesar 70.62%, lebih tinggi 2,86% dibandingkan ATS dengan bobot  fitur sama yaitu sebesar 67,72%.  

Automatic Text Summarization (ATS) is a technique to create a summary  of  the  document  automatically  by  using  computer  applications  to  produce  the  most important information from the original document. Features are required  to  perform  weighting  of  sentences,  including  Log‐TFISF  (term  frequency  index  sentence  frequency),  sentence  location,  sentence  overlap,  title  overlap  and  sentence  relative  length.  This  research  conducted  an  analysis  of  five  feature  extractions in order to determine the weights of each feature that will get the  results of a coherent summary. The five features are implemented in automated  text summarization system in Indonesian language that was developed using the  method of relative importance of topics.  Results  from  experiments  show  that  sentence  location  feature  has  the  highest  F‐Measures  namely  0.46  and  then  consecutive  sentence  overlap,  title  overlap, sentence relative length and Log‐TFISF, with a value of 0.42, 0.42, 0.35  and 0.32. Relative weights of feature consecutive from the largest are sentence  location, sentence overlap, title overlap, sentence relative length and Log‐TFISF  with  a  value  of  0.25,  0.22,  0.22,  0.19  and  0.12.  These  relative  weights  are  implemented on ATS, so we get accuracy of 70.62%. It is more accurate 2,86%  than without relative weights which accuracy of 67,72%. 

Kata Kunci : Automatic Text Summarization (ATS), relative important of topics,  Log‐TFISF,  sentence  location,  sentence  overlap,  title  overlap,  sentence relative length, bahasa Indonesia  


    Tidak tersedia file untuk ditampilkan ke publik.