Laporkan Masalah

DETEKSI OFFENSIVE TWEET BAHASA INDONESIA DENGAN METODE NAIVE BAYES CLASSIFICATION DAN SUPPORT VECTOR MACHINE

RANGGA DIKA DANA PERMANA RANGKUTI, Bambang Nurcahyo Prastowo, Drs., M.Sc; Diyah Utami Kusumaning Putri, S.Kom., M.Sc., M.Cs.

2021 | Skripsi | S1 ILMU KOMPUTER

Jumlah pengguna internet di Indonesia menurut survei APJII (Asosiasi Penyelenggara Jasa Internet Indonesia) tahun 2018 adalah 171,17 juta jiwa atau sebesar 63,85 persen dari total penduduk Indonesia. Dari penggunaan tersebut, mayoritas pengguna mengakses sosial media, salah satu yang populer adalah Twitter. Media sosial Twitter mengedepankan teks sebagai fitur utama untuk berbagi dengan tweet yang sangatlah beragam dari tweet yang informatif, menghibur, sampai menyinggung orang lain. Sampai saat ini dengan bertambahnya jumlah pengguna media sosial Twitter, maka semakin banyak juga tweet yang mengandung umpatan, bernada negatif atau offensive. Dari tweet yang mengandung umpatan tersebut dapat dianalisis dengan metode analisis sentimen, sehingga adanya penelitian ini dilakukan untuk mengklasifikasi unggahan bernada offensive dengan mengoptimalkan model Support Vector Machine dan Naive Bayes Classifier. Kedua model diimplementasi dengan menggunakan dataset tweet bernada offensive yang berbahasa Indonesia, namun dengan label yang tidak seimbang. Untuk menyelesaikan permasalahan imbalanced data, digunakan metode oversampling sehingga label pada kedua kelas menjadi seimbang. Terjadi kenaikan nilai pada metrik penilaian untuk model Naive Bayes Classifier sebanyak 0,002 untuk nilai akurasi, recall, dan f-1 score. Sedangkan untuk nilai precision naik sebanyak 0,001. Kenaikan terjadi setelah model NBC ditambahkan parameter set hasil dari pencarian model terbaik menggunakan grid search yaitu alpha=1,0 dan fit prior bernilai false. Hasil akhir dari model NBC adalah 0,906484 untuk akurasi, 0, 906484 recall, 0,90836 precision, dan 0,906494 untuk f-1 score. xi Sedangkan hasil yang didapat oleh model Support Vector Machine adalah akurasi 0,966169, recall 0,966169, precision 0,967553, dan f-1 score yang bernilai 0,966104. Nilai-nilai tersebut tidak mengalami kenaikan setelah ditambahkan parameter set hasil dari model terbaik. Parameter set yang dimaksud adalah parameter c=1, kernel=rbf, degree=1, gamma=scale, coef=0, shrinking bernilai true, dan probability bernilai true. Sehingga dapat disimpulkan dalam penelitian ini model Support Vector Machine lebih efektif dalam mendeteksi tweet dalam bahasa Indonesia apakah bernada offensive atau tidak.

The number of internet users in Indonesia according to the APJII (Indonesian Internet Service Provider Association) in 2018 is 171,17 million people or as much as 68,35 percent of total of the Indonesian population. The majority of internet users are social media users, one of popular social media platform is Twitter. Twitter allows user to send and receive short text or short post which contains informative, entertaining, or offensive tweet. The increase in the number of users on Twitter has had an impact on a growing number of offensive tweet. The offensive tweet can be analyzed using sentiment analysis, therefore this research used Support Vector Machine and Naive Bayes Classifier to optimize the offensive classification. Both models has been implemented using dataset contains offensive tweet in Bahasa Indonesia. Dataset used in this research is imbalanced which has unequal class distribution, so that oversampling is implemented to handle this problem. Based on test performed, the value of accuracy, recall, and f-1 score of Naive Bayes Classifier model went up 0.002 while the precision only rose 0.001. An increase in these metrics can be caused by best parameter set which produced by hyperparameter tuning using grid search, they are 1,0 for alpha and false for fit prior. So that we have obtained 0.906484 of accuracy, 0.906484 of recall, 0.90836 of precision, and 0.906494 of f-1 score with Naive Bayes Classifier. The trend was reversed in Support Vector Machine model, there is no increase in the metrics after best parameter set were implemented. They are xiii 0.966169 of accuracy, 0.966169 of recall, 0.967553 of precision, and 0.966104 of f-1 score, and also the parameter set we have obtained c=1, kernel=rbf, degree=1, gamma=scale, coef=0, shrinking is true, and probability is true. From these results, Support Vector Machine is more effective than Naive Bayes Classifier to detect offensive tweet in Bahasa Indonesia.

Kata Kunci : twitter, support vector machine, svm, nbc, naive bayes classifier, oversampling, bahasa indonesia

  1. S1-2021-347516-abstract.pdf  
  2. S1-2021-347516-bibliography.pdf  
  3. S1-2021-347516-tableofcontent.pdf  
  4. S1-2021-347516-title.pdf