IDENTIFIKASI UJARAN KEBENCIAN PADA TWITTER MENGGUNAKAN SUPPORT VECTOR MACHINE BERBASIS LEXICON BASED FEATURES & SINONIM
I G M JIWA ATMAJA W, Afiahayati, M. Cs, Ph.D
2020 | Tesis | MAGISTER ILMU KOMPUTERKebebasan pengguna media sosial yang tidak terkontrol dalam memberikan pendapat, dapat memudahkan penggunanya untuk menyerang seseorang, objek, atau lingkungan tertentu dengan bahasa yang penuh kebencian atau biasa disebut ujaran kebencian. Menurut Bareskrim Polri, 80% kejahatan cyber yang dilaporkan adalah ujaran kebencian. Algoritme yang digunakan dalam penelitian ini adalah Support Vector Machine (SVM) yang didukung oleh metode ekstraksi fitur Lexicon Based Features dan Sinonim. Data dibagi menjadi dua kelas data yaitu kelas data Ujaran Kebencian dan kelas data Bukan Ujaran Kebencian. Untuk membantu SVM agar mendapatkan kinerja terbaik, dilakukan preprocessing. Pengujian dilakukan dengan perhitungan accuracy, precision, recall, dan F-Measure. Hasil pengujian pada penelitian ini menggunakan metode Support Vector Machine dengan Sinonim menghasilkan nilai paling tinggi dengan accuracy sebesar 73,03%, precission sebesar 89,74%, recall sebesar 45,24%, serta f-measure sebesar 60,15%. Sementara metode Support Vector Machine dengan Lexicon Based Features menghasilkan nilai paling rendah dengan accuracy sebesar 63%, precission sebesar 66,67%, recall sebesar 23,81%, serta f-measure sebesar 35,09%.
Freedom of social media users who are not controlled in giving opinions, can make it easier for users to attack certain people, objects, or environments with hateful language or commonly called hate speech. According to the Criminal Investigation Police, 80% of cyber crimes reported were expressions of hatred.. The algorithm used is Support Vector Machine (SVM) which is supported by the Lexicon Based Features and Query Expansion method. The data is divided into two classes of data namely the hate speech data class and the non-hate hate data class. To help SVM get the best performance, preprocessing is done. Testing is done by calculating accuracy, precision, recall, and F-Measure. The test results in this study using the Support Vector Machine method with Synonyms produce the highest value with an accuracy of 73.03%, precission of 89.74%, recall of 45.24%, and f-measure of 60.15%. While the Support Vector Machine method with Lexicon Based Features produces the lowest value with an accuracy of 63%, precission of 66.67%, recall of 23.81%, and f-measure of 35.09%.
Kata Kunci : : Ujaran Kebencian, Klasifikasi , SVM , Lexicon Based Features, Synonim