Laporkan Masalah

PENGEMBANGAN MODEL PERINGKAS ABSTRAKTIF DOKUMEN INDONESIA MENGGUNAKAN STACKED EMBEDDING DAN TRANSFORMER DECODER

LUIS TANOTO, Edi Winarko, Drs., M.Sc., Ph.D

2022 | Skripsi | S1 ILMU KOMPUTER

Informasi merupakan bagian penting dalam kehidupan manusia sebagai sumber pengetahuan dan pengalaman, terlebih di era media digital saat ini, informasi menjadi sangat mudah dan cepat diperoleh. Namun, artikel berita yang ada sekarang cenderung sangat panjang dan sulit dicerna sehingga dibutuhkan suatu ringkasan. Meringkas secara manual dirasa kurang efektif dari berbagai sisi sehingga dibutuhkan suatu peringkas teks otomatis. Terdapat dua jenis ringkasan yaitu ringkasan ekstraktif dan ringkasan abstraktif. Dari segi jumlah penelitian, ringkasan abstraktif masih terhitung sedikit khususnya untuk dokumen berbahasa Indonesia padahal ringkasan abstraktif memiliki struktur dan koherensi yang lebih baik. Penelitian ini membangun sebuah model peringkas abstraktif untuk dokumen berbahasa Indonesia menggunakan stacked embedding sebagai encoder dan decoder berbasis Transformer. Ini disebabkan karena hasil yang diperoleh dari penelitian Koto et al. (2020) masih terdapat beberapa kekurangan yang ditunjukkan dari performanya sehingga perlu dilakukan perbaikan model, terutama di bagian encoder. Adapun stacked embedding yang digunakan berfokus pada BERT, BPE, dan FastText. Data yang digunakan diambil dari penelitian Koto et al. (2020) yang berisi artikel berita Liputan6.com dan hasil ringkasannya. Penelitian ini juga melakukan percobaan terhadap pengaruh pemilihan lapisan BERT dan pengaruh jumlah data latih yang digunakan (50.000 data dan 75.000 data). Hasil penelitian menunjukkan bahwa penggunaan seluruh lapisan BERT dalam model menghasilkan performa terbaik. Selain itu, untuk model yang dilatih menggunakan 50.000 data latih menunjukkan bahwa adanya peningkatan tidak signifikan stacked embedding terhadap performa model. Skenario ini mencapai performa terbaik ketika menggunakan kombinasi BERT + CE + BPE dengan nilai F-1 sebesar 34,17% (R-1), 13,98% (R-2), dan 31,51% (R-L). Sebaliknya, untuk model yang dilatih menggunakan 75.000 data latih tidak menunjukkan adanya pengaruh stacked embedding terhadap performa model. Performa terbaik untuk skenario ini dicapai ketika menggunakan model BERT dengan nilai F-1 sebesar 37,18% (R-1), 18,19% (R-2), dan 34,28% (R-L). Salah satu penyebabnya adalah nilai precision yang terlalu rendah.

Information is a crucial part of human life as a source of knowledge and experience, particularly in the current digital media era in which all information can be easily and rapidly obtained. However, the existing news articles now tend to be extremely lengthy and ununderstandable, so summaries are needed. Manual summarizing seems ineffective from any side, so automatic text summarization is needed. There are two kinds of summary which are extractive summary and abstractive summary. In terms of the number of researches done, abstractive summarization is still a few, especially for Indonesian documents, whereas it gives better grammar and word coherence. This research developed an abstractive summarizer model for Indonesian documents using stacked embedding as the encoder and a Transformer-based decoder. The background was the result obtained still had some mistakes reflected in the model performance, so there was an urgency to develop or fix the model, especially the encoder part. As for the pre-trained embeddings, the combination only focused on BERT, BPE, and FastText. The data used were taken from Koto et al. (2020), containing the news articles from Liputan6.com and their summaries. This research also conducted experiments to show the effect of BERT layers selection and the effect of a number of training data used (50,000 data and 75,000 data). The results showed that using all layers of BERT in the training model gave the best performance. Besides that, models trained with 50,000 training data showed an insignificant increase in using the stacked embedding towards the model performance. The best performance for this scenario was achieved by the combination of BERT+CE+BPE with F-1 scores of 34.17% (R-1), 13.98% (R-2), and 31.51% (R-L). Meanwhile, models trained with 75,000 training data did not show any effect in using the stacked embedding towards the model performance. The best performance was achieved by the BERT model with F-1 scores of 37.18% (R-1), 18.19% (R-2), and 34.28% (R-L). One of the causes might be the low precision value for each model.

Kata Kunci : peringkas teks, ringkasan, abstraktif, Liputan6.com, encoder, decoder, stacked embedding, BERT, BPE, FastText, Transformer, data latih, lapisan BERT, precision, recall, F-1, ROUGE