PERBANDINGAN NAIVE BAYES TERMODIFIKASI UNTUK DETEKSI ARTIKEL CLICKBAIT BERBAHASA INDONESIA
L TARANGGA ARIEF G, Dzikri Rahadian Fudholi, S.Kom., M.Comp.
2022 | Skripsi | S1 ILMU KOMPUTERJudul clickbait telah memberikan dampak negatif ke masyarakat. Masyarakat merasa ditipu dan termanipulasi karena berita tersebut. Di lain pihak sudah banyak penelitian yang menggunakan pembelajaran mesin untuk mendeteksi judul clickbait. Penelitian-penelitian tersebut sayangnya hanya berfokus kepada kata-kata yang digunakan tanpa mempertimbangkan penerbit dari artikel tersebut. Pada penelitian ini dataset yang digunaan adalah CLICK-ID dataset yang terdiri dari 15000 data dengan 8710 data non-clickbait dan 6290 artikel clickbait yang memiliki 12 penerbit yang berbeda. Dataset pada penelitian ini akan dipreprocessing dengan menggunakan lowercase conversion, stemming, dan stopword removal. Dataset yang telah dibersihkan dimasukkan kedalam 2 algoritma Naive Bayes yang telah dilakukkan oleh penelitian sebelumnya yaitu Multinomial Naive Bayes (MNB) dan Tree Augmented Naive Bayes (TANB) serta 2 algoritma Naive Bayes yang dimodifikasi yaitu Publisher Multinomial Naive Bayes (PMNB) dan Title Publisher Multinomial Naive Bayes (TPMNB). Hasil dari penelitian ini didapati bahwa TPMNB memilki akurasi, presisi, dan recall tertinggi dengan nilai berturut-turut 0.909826, 0.936554, dan 0.886057 untuk pelatihan dan 0.774, 0.766667, dan 0.720528 untuk pengujian sedangkan TANB memiliki nilai recall tertinggi dengan nilai 0.876067 untuk pelatihan dan 0.7173 untuk pengujian. Selain itu juga diperoleh bahwa MNB, PMNB, dan TPMNB memiliki kompleksitas pelatihan dan prediksi yang sama yaitu O(nt) dan O(t) sedangkan TANNB memiliki kompleksitas yang lebih besar dibandingkan algoritma lain dalam penelitian ini.
Clickbait titles have harmed society. People feel cheated and manipulated because of the news. On the other hand, many studies have used machine learning to detect clickbait titles. These studies unfortunately only focus on the words used without considering the publisher of the article. In this study, the dataset used is the CLICK-ID dataset which consists of 15000 data with 8710 non-clickbait data and 6290 clickbait articles with 12 different publishers. The dataset in this study will be preprocessed using lowercase conversion, stemming, and stopword removal. The cleaned dataset is entered into 2 Naive Bayes algorithms that have been carried out by previous research, namely Multinomial Naive Bayes (MNB) and Tree Augmented Naive Bayes (TANB) as well as 2 modified Naive Bayes algorithms namely Publisher Multinomial Naive Bayes (PMNB) and Title Publisher Multinomial Naive Bayes (TPMNB). The results of this study found that TPMNB had the highest accuracy, precision, and recall with values ��of 0.909826, 0.936554, and 0.886057 respectively for training and 0.774, 0.766667, and 0.720528 for testing. In contrast, TANB had the highest recall values ��with values ��of 0.876067 for movement and 0.7173 for testing. In addition, it was also found that MNB, PMNB, and TPMNB had the same training and prediction complexity, namely O(nt) and O(t) while TANNB had greater complexity than other algorithms in this study.
Kata Kunci : naive bayes, clickbait, judul, penerbit, klasifikasi teks