Laporkan Masalah

PERBANDINGAN METODE SELEKSI FITUR PADA KLASIFIKASI BERITA HOAKS TENTANG COVID-19 DENGAN NAIVE BAYES CLASSIFIER

HANIFAN AULIA, Sri Mulyana, Drs., M.Kom.

2021 | Skripsi | S1 ILMU KOMPUTER

Data yang berbentuk teks menyebabkan data memiliki dimensi yang tinggi dan fitur yang sangat banyak. Fitur yang banyak akan memakan waktu yang lama serta tidak efisien. Hal ini dapat diatasi dengan metode seleksi fitur. Pemanfaatan metode seleksi fitur sudah banyak dilakukan dalam klasifikasi teks, tetapi masih belum banyak diterapkan pada kasus klasifikasi berita hoaks dan valid. Penelitian dalam melakukan perbandingan berbagai macam metode seleksi fitur perlu dilakukan sebagai acuan untuk penelitian lain kedepannya. Pada penelitian ini dilakukan perbandingan metode seleksi fitur pada klasifikasi berita hoaks dengan NB (Naive Bayes Classifier). Perbandingan yang dilakukan yaitu antara chi-square dan information gain. Penelitian dilakukan menggunakan dataset berisi 9727 berita berlabel hoax dan 474 berita berlabel valid. Berdasarkan hasil stratified k-fold cross validation diperoleh nilai akurasi tertinggi yaitu 0,87198 untuk klasifikasi menggunakan seleksi fitur chi-square. Nilai akurasi terendah didapatkan pada klasifikasi menggunakan seleksi fitur information gain dengan nilai akurasi sebesar 0,83541.

Data in the form of text causes the data to have high dimensions and a lot of features. Many features will take a long time and are inefficient. This can be overcome by the feature selection method. The use of feature selection methods has been widely used in text classification, but it has not been widely applied to the classification of hoax and valid news. Research in comparing various methods of feature selection needs to be done as a reference for other future studies. In this study, a comparison of the feature selection method in the classification of hoax news with NB (Naive Bayes Classifier) was carried out. The comparison is between chi-square and information gain. The study was conducted using a dataset containing 9727 news labeled hoax and 474 news labeled valid. Based on the results of stratified k-fold cross validation, the highest accuracy value is 0.87198 for classification using the chi-square feature selection. The lowest accuracy value is obtained in the classification using the information gain feature selection with an accuracy value of 0.83541.

Kata Kunci : Hoaks, Informasi Palsu, Klasifikasi Teks, Naive Bayes, Seleksi Fitur, Chi-Square, Information Gain