Laporkan Masalah

Headline Generation for Bahasa Indonesia using Encoder-Decoder

FADHILA AUFA F, Mhd. Reza M. I. Pulungan, S.Si., M.Sc., Dr-Ing.; Yunita Sari, S.Kom., M.Sc., Ph.D

2022 | Skripsi | S1 ILMU KOMPUTER

Judul adalah kesan pertama tentang bagaimana pembaca akan membaca sebuah artikel. Ini mempengaruhi bagaimana artikel tersebut akan dianggap dan apa yang diharapkan pembaca dalam artikel tersebut. Saat ini, masalah dengan headline adalah bahwa beberapa headline tidak benar-benar mewakili artikel yang sebenarnya, ini dikenal sebagai headline clickbait. Selama bertahun-tahun dengan meningkatnya jumlah jurnalisme online, banyak penerbit menggunakan headline clickbait untuk menarik lebih banyak pembaca daripada menyampaikan informasi. Studi tentang pembuatan headline telah dilakukan untuk mencoba dan memberikan headline yang mewakili arti sebenarnya dari artikelnya. Namun, sebagian besar studi tersebut terfokus pada bahasa Inggris dan masih kurang pada bahasa lain. Penelitian ini mempelajari kasus pembuatan headline dan mencoba mengimplementasikan beberapa model sebelumnya khususnya model encoder-decoder. Model tersebut akan dilatih menggunakan dataset artikel berita berbahasa Indonesia. Dataset "CLICK-ID" (William & Sari, 2020) merupakan kumpulan headline berita Indonesia yang terdiri dari 46.517 headline yang dikumpulkan dari 12 penerbit berita lokal Indonesia. Berdasarkan percobaan dalam penelitian ini, hasilnya bervariasi berdasarkan jumlah maksimum konten yang dapat digunakan. Dalam penelitian ini, panjang konten maksimum 100 kata digunakan dan menghasilkan akurasi model sebesar 80% dan skor ROUGE 0,50.

Headlines are the first impression on how a reader will read an article. It effects on how the article will be regarded and what the reader will expect in the article. Nowadays, the problem with headlines is that some headlines don't truly represent the true article, this is known as clickbait headlines. Over the years with the increasing numbers of online journalism, lots of publishers use clickbait headlines to attract more readers rather than delivering the information. Studies on headline generation has been made to try and deliver a headline which represents the true meaning of its article. However, the majority of these studies are focused on English and still lacks in other languages. This research studies the case of headline generation and tries to implement some previous models especially the encoder-decoder model. The model will be trained using a dataset of news articles in Bahasa Indonesia. The "CLICK-ID" (William & Sari, 2020) dataset is a collection of Indonesian news headlines which consists of 46,517 collected headlines from 12 local Indonesian news publishers. Based on the experiments in this research, the results vary based on the maximum amount of the content which can be used. In this research, a maximum content length of 100 words is used and results in a model accuracy of 80% and a ROUGE score of 0.50.

Kata Kunci : Encoder-Decoder, Headline Generation, Bahasa Indonesia

  1. S1-2022-392765-abstract.pdf  
  2. S1-2022-392765-bibliography.pdf  
  3. S1-2022-392765-tableofcontent.pdf  
  4. S1-2022-392765-title.pdf