METODE UNTUK DETEKSI PENGHINAAN DALAM TWIT BERBAHASA INDONESIA

LOVIANA IKA SARI

LOVIANA IKA SARI, Edi Winarko, Drs., M.Sc., Ph.D

2019 | Skripsi | S1 ILMU KOMPUTER

Abstrak
File Pdf

Jumlah pengguna media sosial yang besar membuat kebebasan berbicara di media sosial menjadi tidak terkendali. Bahkan pada media sosial Twitter, seringkali terjadi perbedaan pendapat yang diungkapkan menggunakan bahasa kasar untuk menghina pengguna Twitter yang lain. Penyebab penghinaan yang tidak terkendali di media sosial khususnya Twitter adalah tidak adanya alat yang efektif untuk menyaring bahasa kasar yang menghina. Oleh karena itu, pada penelitian ini akan dilakukan deteksi penghinaan dalam twit berbahasa Indonesia dengan studi kasus twit-twit dalam proses diskusi pada akun @tubirfess. Fitur kata pada twit-twit tersebut diambil untuk proses pembobotan kata menggunakan TF-IDF, kemudian hasil pembobotan kata dijadikan masukan pada proses klasifikasi. Metode klasifikasi yang digunakan adalah Multinomial Naive Bayes dan Support Vector Machine. Untuk pengujiannya menggunakan metode K-Fold Cross Validation dengan nilai k = 10. Hasil pada penelitian ini adalah deteksi penghinaan twit pada fitur unigram menggunakan metode Multinomial Naive Bayes dengan parameter alpha = 1 memiliki akurasi rata-rata sebesar 83%, sedangkan metode Support Vector Machine dengan kernel linear memiliki akurasi terbaik, yaitu 90,07%.

The large number of social media users makes free speech on social media out of control. Even on Twitter, there are often differences of opinion that are expressed using abusive language that insults other Twitter users. The cause of this problem is that there is no effective tools to filter out abusive language. Therefore, Indonesian insulting tweets on @tubirfess discussion board will be detected for this research. The word n-gram feature on the tweets will be collected and weighed using TF-IDF method then the weighed words will be collected as input into classification process. The classification method that were used in this research are Multinomial Naive Bayes and Support Vector Machine. For evaluation process will use K-Fold Cross Validation method with the value of k = 10. The results of this research are insult detection on tweets on unigram feature using Multinomial Naive Bayes method with parameters alpha = 1 having an average accuracy of 83%, while Support Vector Machine method with a linear kernel has best accuracy of 90.07%.

Kata Kunci : text mining, klasifikasi, classification, tweet, twit, Twitter, penghinaan, insult, Multinomial Naive Bayes, Support Vector Machine

S1-2019-333025-abstract.pdf
S1-2019-333025-bibliography.pdf
S1-2019-333025-tableofcontent.pdf
S1-2019-333025-title.pdf

LAYANAN

E-Resources

Quick Access