Laporkan Masalah

Model Identifikasi Aktivitas Merisak pada Media Sosial Menggunakan Pendekatan Analisis Sentimen dan Support Vector Machine

RIKA WIDIANINGTYAS, Aina Musdholifah, S.Kom., M.Kom., Ph.D

2017 | Skripsi | S1 ILMU KOMPUTER

Media sosial adalah medium yang popular dalam penyebaran informasi dan komunikasi melalui internet saat ini. Informasi yang diperoleh melalui sosial media sangat berguna bagi semua orang, namun juga terdapat beberapa pengguna yang menghasilkan konten yang negatif karena mengandung unsur kekerasan, ofensif dan penghinaan. Penggunaan situs jejaring sosial yang tumbuh sangat cepat mengakibatkan pengguna jejaring sosial rentan terhadap aktivitas merisak. Salah satu bentuk aktivitas merisak adalah berupa komentar yang mengandung kata-kata kasar di situs jejaring sosial yang berdampak pada psikologi penggunanya. Untuk itu dibutuhkan suatu model yang dapat mengidentifikasi aktivitas merisak yang berupa komentar kasar. Dalam penelitian ini dilakukan pembangunan model untuk mengidentifikasi aktivitas merisak menggunakan bag of words dan rekayasa fitur berdasarkan sentimen dari teks dengan Sentiwordnet dan algoritma machine learning support vector machine. Dengan rekayasa fitur ini, dibangun 6 fitur yaitu jumlah nilai polaritas, jumlah nilai polaritas positif, jumlah nilai polaritas negatif, jumlah term positif, jumlah term negatif, dan rasio term. Performa dari model dievaluasi berdasarkan nilai akurasi menggunakan Stratified Cross Validation dengan k=10. Hasil terbaik support vector machine didapatkan dengan menggunakan kernel linear dan nilai cost 0,2 menghasilkan akurasi sebesar 82,7%. Sedangkan fitur rekayasa yang menghasilkan akurasi terbaik adalah jumlah nilai polaritas dan jumlah nilai polaritas negatif.

Social media is a popular mediums for information sharing and communication over the internet today. The information gained from these social media can be very useful for people around the world, but sometimes there are some users generated contents are very negative as they contain abusive, offensive and insulting element. The use of social networking sites which is rapidly growing make its users vulnerable to bullying. One of the bullying form is comments containing abusive words in social networking sites that gives bad impact to the psychology of the users. Therefore, it is need a model which can identify the bullying activity in the form of abusive comments. This research focuses on generating a model for bullying identification using bag of words and feature engineering based on sentiment of the text with Sentiwordnet and machine learning algorithm support vector machine. With this feature engineering, it was generated 6 features, they were sum of polarity score, sum of positive polarity score, sum of negative polarity score, count of positive term, count of negative term, and term ratio. The performance of the model was evaluated by accuracy score using stratified cross validation. The best support vector machine was achieved using linear kernel and cost score 0,2 with 82,7% accuracy. Engineered features that gave the best accuracy score were sum of polarity score and sum of negative polarity score.

Kata Kunci : aktivitas merisak, klasifikasi, rekayasa fitur, sentiwordnet, support vector machine

  1. S1-2017-331358-abstract.pdf  
  2. S1-2017-331358-bibliography.pdf  
  3. S1-2017-331358-tableofcontent.pdf  
  4. S1-2017-331358-title.pdf