Laporkan Masalah

KLASIFIKASI JUDUL BERITA CLICKBAIT BERBAHASA INDONESIA MENGGUNAKAN BERT EMBEDDING

GENNARDO, Bapak Drs. Edi Winarko, M.Sc., Ph.D. M.Cs.;Ibu Diyah Utami Kusumaning Putri, S.Kom., M.Sc.

2022 | Skripsi | S1 ILMU KOMPUTER

Perkembangan teknologi telah mempermudah berbagai aspek kehidupan saat ini, salah satunya adalah pencarian informasi. Permasalahan terdapat pada konten-konten clickbait yang beredar. Konten sejenis ini dapat menyebabkan miskomunikasi informasi yang mana dapat berlanjut pada masalah lain seperti pengalihan fokus dan menurunkan popularitas konten lain yang tidak bersifat clickbait. Penelitian ini mengembangkan model berbasis transfer learning yang mempunyai performa yang lebih baik dalam mengklasifikan judul berita Berbahasa Indonesia yang bersifat clickbait dibandingkan penelitian serupa yang menggunakan deep learning. Model yang dikembangkan adalah IndoBERT (Bidirectional Encoder Representations from Transformers Embedding) yang ditambahkan classifier berbeda, yaitu Fully-Connected-Layer tanpa hidden layer, Bidirectional Long Short-Term Memory (Bi-LSTM), dan Convolutional Neural Network (CNN). Data ini diperoleh dari dua belas sumber berita lokal yang sudah dilabeli clickbait atau tidak, yaitu detikNews, Fimela, Kapanlagi, Kompas, Liputan6, Republika, Sindonews, Tempo, Tribunnews, Okezone, Wowkeren, dan Posmetro-Medan. Hasil eksperimen menunjukkan bahwa ketiga model yang dikembangkan mempunyai akurasi yang lebih baik dibandingkan penelitian serupa yang menggunakan deep learning untuk data yang sama. Hasil perbandingan menunjukkan bahwa dari segi nilai F1, model IndoBERT yang ditambah BiLSTM mempunyai performa tebaik dengan nilai F1 76.86%, diikuti model IndoBERT yang ditambah CNN dengan nilai F1 76.67%, dan IndoBERT yang ditambah Fully Connected Layer dengan nilai F1 76.53%.

Technological Improvement has made it easy for everyone to search for information. Problems arise when there exists clickbait content. This type of content might cause miscommunication which will then cause more problems like focus shift and lower other non-clickbait content's popularity. This research aims to develop transfer learning models that will perform better than other deep learning model in classifying clickbait Indonesian Headlines, especially the one using the same dataset. Those models are based on IndoBERT with different additional classifiers, Fully Connected Layer without Hidden Layer, Bidirectional Long Short-Term Memory, and Convolutional Neural Network. The data that we use is obtained from twelve news headlines in Indonesia that have been labeled as clickbait or non clicbait. They are detikNews, Fimela, Kapanlagi, Kompas, Liputan6, Republika, Sindonews, Tempo, Tribunnews, Okezone, Wowkeren, dan Posmetro-Medan. The experiment shows that all three models have better accuracy than another experiment that utilizes deep learning on the same data. The comparison in terms of F1 Score shows that, IndoBERT with BiLSTM has the best performance with 76.86% F1, followed by IndoBERT with CNN in the second place with 76.67% F1, and IndoBERT with Fully Connected Layer with 76.53% F1.

Kata Kunci : Kata kunci: Klasifikasi, Clickbait, Judul Berita, Bahasa Indonesia, Bidirectional Encoder Representations from Transformers Embedding, Bidirectional Long Short-Term Memory, Convolutional Neural Network

  1. S1-2022-424187-bibliography.pdf  
  2. S1-2022-424187-tableofcontent.pdf