Laporkan Masalah

KLASIFIKASI UJARAN KEBENCIAN PADA IMBALANCED DATASET MENGGUNAKAN SUPPORT VECTOR MACHINE DAN SMOTE

RAMADHANA SETIYAWAN, Afiahayati, S.Kom., M. Cs, Ph. D

2022 | Tesis | MAGISTER ILMU KOMPUTER

Internet maupun media sosisal merupakan wadah yang sering digunakan oleh pengguna untuk mengutarakan pendapat atau bebas untuk berekspresi, akan tetapi penggunan sering memberikan pendapat dalam bentuk bahasa yang mengandung unsur kebencian atau sering disebut dengan ujaran kebencian. Pada hal tersebut sering dilakukannya penelitian untuk mengambil data teks dengan unsur ujaran kebencian namun sering kali muncul masalah yang sama yakni ketidakseimbangan data teks berbentuk ujaran kebencian. Pada penelitian ini mempunyai tujuan untuk menangani ketidakseimbangan data teks ujaran kebencian dengan menggunakan salah satu resampling method yakni Synthetic Minority Oversampling Technique (SMOTE) serta menggunakan model klasifikasi Support Vector Machine (SVM). Penelitian ini juga melakukan pengujian hasil kinerja menggunakan Confusion Matrix dengan memperhatikan dari sisi accuracy, precision, recall, dan F-Measure. Hasil kinerja dari pengujian memperoleh nilai accuracy sebesar 70.59%, precision sebesar 70.41%, recall sebesar 98.57%, f-measure sebesar 82.14%.

The internet and social media are platforms that often used by users to express opinions or free expression, but users often give opinions that contains elements of hate or referred as hate speech. There is some research that often carried out to retrieve text data elements of hate speech but some problem always appear is imbalance text data of hate speech. This research aims to handle the imbalance of hate speech text data by using one of the resampling methods, namely Synthetic Minority Oversampling Technique (SMOTE) and using the Support Vector Machine (SVM) classification model. This research also tests the performance results using Confusion Matrix by looking at accuracy, precision, recall, and F-Measure. The performance results of the test obtained an accuracy value of 70.59%, precision of 70.41%, recall of 98.57%, f-measure of 82.14%.

Kata Kunci : Hate Speech, Imbalanced Dataset, Smote, SVM, RBF