Laporkan Masalah

Perbandingan Penggunaan Word Embedding Word2Vec, GloVe, dan FastText dalam Peringkasan Teks Ekstraktif Berita Berbahasa Indonesia Menggunakan RNN

ZAHRA KHAERUNNISA, Dr.techn. Ahmad Ashari, M.I.Kom;Yunita Sari, S.Kom., M.Sc., Ph.D.

2022 | Tesis | MAGISTER ILMU KOMPUTER

Beberapa tahun terakhir pendekatan dengan metode Deep Neural Network telah banyak digunakan pada peringkasan teks ekstraktif untuk dapat meningkatkan performa secara signifikan. Salah satu alasan peningkatan akurasi dan kinerja terjadi adalah penggunaan pengetahuan eksternal, pre-trained word embedding. Jenis word embedding yang sering digunakan adalah unsupervised learning diantaranya Word2Vec, GloVe, dan FastText yang mempunyai mekanisme berbeda untuk menghasilkan representasi kata dalam bentuk vektor. Diantara word embedding tersebut belum diketahui pasti jenis mana yang lebih baik digunakan untuk peringkasan teks ekstraktif. Metode Deep Neural Network telah banyak digunakan untuk menyelesaikan permasalahan peringkasan teks ekstraktif salah satunya penggunaan Recurrent Neural Network (RNN) yang digunakan sebagai ekstraksi fitur dan sebagai klasifikasi untuk kalimat ringkasan. Penelitian ini dilakukan untuk membandingkan kinerja dari word embedding Word2Vec, GloVe, dan FastText pada peringkasan teks ekstraktif berita bahasa Indonesia dengan menggunakan Recurrent Neural Network sebagai klasifikasi kalimat ringkasan. Evaluasi model diukur menggunakan F-measure metriks ROUGE-1, ROUGE-2, dan ROUGE-L. Performa terbaik dihasilkan oleh model yang menggunakan word embedding FastText dengan nilai F-Measure ROUGE-1 70.82, ROUGE-2 66.525 dan ROUGE-L 70.288.

In recent years, the Deep Neural Network approach has been widely used in extractive text summarization to significantly improve performance. One of the reasons for increasing accuracy and performance is the use of external knowledge, pre-trained word embedding. The type of word embedding that is often used is unsupervised learning including Word2Vec, GloVe, and FastText which have different mechanisms to produce word representations in vector form. Among the word embedding, it is not known which type is better to use for extractive text summarization. The Deep Neural Network method has been widely used to solve extractive text summarization problems, one of which is the use of Recurrent Neural Network (RNN) which is used as feature extraction and as a classification for summary sentences. This study was conducted to compare the performance of word embedding Word2Vec, GloVe, and FastText on extractive text summary of Indonesian news using Recurrent Neural Network as summary sentence classification. The model evaluation was measured using the F-measure metrics ROUGE-1, ROUGE-2, and ROUGE-L. The best performance was generated by the model using word embedding FastText

Kata Kunci : Peringkasan Teks Ekstraktif, Word Embedding, Word2Vec, GloVe, FastText, Recurrent Neural Network

  1. S2-2022-433805-abstract.pdf  
  2. S2-2022-433805-bibliography.pdf  
  3. S2-2022-433805-tableofcontent.pdf  
  4. S2-2022-433805-title.pdf