Laporkan Masalah

MODIFIED SELF-TRAINING USING K-MEANS CLUSTERING FOR CLICKBAIT DETECTION IN BAHASA INDONESIA

RAFQI MUHAMMAD A, Azhari, Dr., MT.; Yunita Sari, S.Kom., M.Sc., Ph.D.

2022 | Skripsi | S1 ILMU KOMPUTER

Di zaman modern ini, penggunakan clickbait sering digunakan oleh individu atau kelompok untuk memberikan keunggulan dalam jumlah pengunjung situs atau video untuk konten yang mereka buat dengan memberikan pengunjung judul berita atau konten yang menyesatkan dan sangat menarik sedangkan isi dari konten tersebut tidak berkorelasi dengan judul dari kontennya tersebut. Ada banyak dataset untuk melakukan klasifikasi pada clickbait tetapi mayoritas adalah data yang belum memiliki label. Pada penelitian ini, penulis mengusulkan sebuah metode menggunakan semi supervised-learning untuk membantu me-label data secara otomatis dan membuat korpus data yang sudah dilabel yang dapat digunakan untuk kepentingan klasifikasi. Penelitian ini mengusulkan sebuah modifikasi pada metode semi supervised-learning menggunakan K-means. Penggunaan ¬metode clustering K-means pada penelitian ini bertujuan untuk memilih data yang memiliki nilai kebenaran tinggi sebelum dimasukkan kedalam metode klasifikasi untuk dilabel. Penelitian ini membandingkan antara penggunaan Fasttext dan TF-IDF sebagai representasi kata menggunakan metode self-training yang sudah dimodifikasi dengan K-means clustering. Hasil yang didapatkan dari komparasi kedua model menyatakan bahwa penggunaan kombinasi representasi kata Fasttext dan modifikasi self-training adalah hasil yang terbaik dengan accuracy score mencapai 85.20%, precision score mencapai 90.80%, recall score mencapai 81.60%, dan F1-score mencapai 85.90%.

Nowadays, the term clickbait is used by individuals or organizations to gain viewer counts advantage on their content by giving viewers or readers misleading and very interesting headlines while the content itself is unrelated to the headlines. To overcome this problem, it can be solved by using Clickbait Detection. Clickbait Detection is a task to classify text or headlines between two classes which are clickbaits and non-clickbaits. There are thousands of clickbait datasets but most of them are unlabelled. In this research, author proposed a method of using semi supervised-learning method to help label the data and create a corpus of labelled data that can be used for classification purposes. This research proposed a modified version of semi-supervised learning method using K-means to select high value data before putting them into the classifier to be labelled. A comparison between Fasttext and TF-IDF as the word representation combining with the modified self-training method using K-means clustering method is conducted in this research. The result of clickbait detection on both models gives the best result from the combination of Fasttext and modified version of self-training with 85.20% on accuracy, precision score of 90.80%, recall score of 81.60%, and F1-score of 85.90%

Kata Kunci : Clickbait Detection, Natural Language Processing, Fasttext, TF-IDF, Semi-supervised Learning, K-Means, Support Vector Machine.

  1. S1-2022-429295-abstract.pdf  
  2. S1-2022-429295-bibliography.pdf  
  3. S1-2022-429295-tableofcontent.pdf  
  4. S1-2022-429295-title.pdf