Laporkan Masalah

Hate Speech Detection in Indonesian Using Complement Naive Bayes

ADIVA VIDYANI ERIZA, Nur Rokhman, S.Si., M.Kom, Dr.

2022 | Skripsi | S1 ILMU KOMPUTER

Ujaran kebencian telah menjadi masalah yang meluas seiring penggunaan media sosial yang terus meningkat di Indonesia saat ini. Untuk mengatasi masalah ini dengan cepat, diperlukan otomatisasi pendeteksian ujaran kebencian. Adapun masalah dalam pendeteksian ujaran kebencian adalah bahwa data ujaran kebencian jauh lebih sedikit dibandingkan dengan data yang bukan ucapan kebencian, sehingga peluang untuk menghasilkan dataset yang tidak seimbang meningkat, dan dapat menyebabkan kesalahan klasifikasi lebih besar. Complement Naive Bayes classifier sering digunakan untuk menyelesaikan kasus-kasus ketidakseimbangan dataset ini. Complement Nave Bayes diciptakan dengan tujuan untuk memecahkan masalah saat menggunakan Multinomial Naive Bayes, di mana ia tidak bekerja dengan baik dalam kasus dataset yang tidak seimbang. Oleh karena itu dalam penelitian ini kinerja pengklasifikasi Complement Naive Bayes dibandingkan dengan kinerja pengklasifikasi Multinomial Naive Bayes dalam mengklasifikasikan data ujaran kebencian yang tidak seimbang, dan model divalidasi menggunakan K-Fold Cross Validation. Dalam eksperimen ini, meskipun skor akurasi mencetak 1% lebih rendah dibandingkan dengan pengklasifikasi Multinomial Naive Bayes, pengklasifikasi Complement Nave Bayes mencetak skor rata-rata recall tertinggi sebesar 89%, yaitu 25% lebih tinggi dibandingkan dengan pengklasifikasi Multinomial Naive Bayes. Hal ini menunjukkan bahwa pengklasifikasi Complement Naive Bayes dapat mengklasifikasikan ujaran kebencian lebih baik, dan memiliki peluang lebih kecil untuk gagal mendeteksi ujaran kebencian yang sebenarnya.

Hate speech has become a widespread problem as the use of social media continues to increase in Indonesia today. To quickly tackle this problem, the automation of detecting the hate speech is needed. The problem in hate speech detection is that there is way less data of hate speech compared to non-hate-speech, hence higher chance of creating an imbalanced dataset that can cause misclassification. Complement Naive Bayes classifier is often used to solve these cases of imbalanced dataset. Complement Naive Bayes was invented with the purpose of solving the problem when using the Multinomial Naive Bayes, in which it does not perform well in the case of imbalanced dataset. Therefore in this research, the performance of Complement Naive Bayes classifier is compared to the performance of Multinomial Naive Bayes classifier in classifying imbalanced hate speech data, and the models are validated using the K-Fold Cross Validation. In this experiment, despite the 1% lower accuracy score compared to the Multinomial Naive Bayes classifier, the Complement Naive Bayes classifier scored the highest of 89% in average recall score, that is 25% higher compared to Multinomial Naive Bayes classifier. This indicates that Complement Naive Bayes classifier can classify hate speech better, and has a lower chance of letting the actual hate speech go undetected.

Kata Kunci : Complement Naive Bayes, Hate Speech Detection, Natural Language Processing, Classification

  1. S1-2022-408353-abstract.pdf  
  2. S1-2022-408353-bibliography.pdf  
  3. S1-2022-408353-tableofcontent.pdf  
  4. S1-2022-408353-title.pdf