Laporkan Masalah

Clickbait Detection for News Article in Bahasa Indonesia using Article Informality

HILDA, Sigit Priyanta, S.Si., M.Kom., Dr; Yunita Sari, S.Kom., M.Sc., Ph.D

2020 | Skripsi | S1 ILMU KOMPUTER

Berkembang pesatnya online media membuat para pembuat konten terpacu untuk membuat konten yang menarik dan menggunakan beberapa teknik seperti penggunaan judul yang catchy untuk memikat pembaca membaca artikel beritanya. Namun, halaman ini mungkin berkualitas rendah dan cenderung kurang menayangkan konten yang dijanjikan pada judul. Sehingga dapat memanfaatkan beberapa jenis format pada tajuk utamanya serta struktur yang menarik untuk isinya sehingga tampak kurang formal daripada berita yang ditulis secara profesional. Halaman-halaman ini kemudian disebut clickbait. Tidak dapat dipungkiri bahwa clickbait biasanya terlihat melalui judul-nya, hal ini tidak menghentikan kemungkinan bahwa konten tersebut mungkin menunjukkan beberapa sinyal menuju klasifikasinya. Penelitian ini bertujuan untuk memanfaatkan konten artikel dalam mendeteksi clickbait pada artikel berita berbahasa Indonesia. Fitur dari artikel beserta fitur dari headline akan diekstrak. Di mana ciri artikel mewakili beberapa ukuran informalitas dan keterbacaan. Pengelompokan fitur akan digunakan untuk mengukur performa kombinasi fitur yang berbeda di dua algoritma pembelajaran mesin, SVM dan Regresi Logistik. Pengelompokan fitur yang digunakan antara lain Headline + Artikel + Kesamaan, Headline + Artikel, dan Headline. Model terbaik dalam penelitian ini dicapai dengan fitur Headline + Artikel + Kesamaan memanfaatkan SVM yang memperoleh kinerja tertinggi di seluruh metrik yang digunakan. Pencapaian rata-rata akurasi 92,26%, presisi rata-rata 92,73%, recall rata-rata 86,74%, dan rata-rata F-1 Score 89,49%.

Due to the flourishing growth of online media, content creators are triggered to create content that is attractive and that they employ several techniques such as the usage of catchy headlines to lure the readers to read their news article. However, these pages might be of low-quality and tend to under-deliver the content promised in the headline. Such that it may utilize some kind of formatting on its headline as well as engaging structures for its content that it appears less formal than professionally written news. These pages are then called clickbait. It is undeniable that clickbait is usually seen through its headline, this does not cease the possibility that the content might show some signals towards its classification. This research aims to utilize the content of the article in detecting clickbait for news article in Bahasa Indonesia. Features from article along with features from headline will be extracted. In which feature from article represent several informality and readability measures. Feature groupings would be used to measure the performance of different feature combinations across two machine learning algorithm, SVM and Logistic Regression. Feature groupings that are used includes Headline + Article + Similarity, Headline + Article, and Headline. Best model for this research thus is achieved by Headline + Article + Similarity features utilizing SVM which obtained the highest performance across the metrics used. Achieving average accuracy of 92.26%, average precision of 92.73%, average recall of 86.74%, and average F-1 Score of 89.49%.

Kata Kunci : Clickbait Detection, Bahasa Indonesia, Support Vector Machine, Machine Learning

  1. S1-2020-408354-abstract.pdf  
  2. S1-2020-408354-bibliography.pdf  
  3. S1-2020-408354-tableofcontent.pdf  
  4. S1-2020-408354-title.pdf