Laporkan Masalah

KLASIFIKASI KONTEN RADIKALISME DI TWITTER DENGAN MODEL DEEP LEARNING MENGGUNAKAN LONG SHORT TERM MEMORY

NUR OKTAVIN IDRIS, Widyawan, S.T., M.Sc., Ph.D; Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D.

2020 | Tesis | MAGISTER TEKNOLOGI INFORMASI

Pengaruh media sosial memberikan peluang bagi pengguna media sosial untuk mendukung pemikiran radikalisme yang terus berkembang di media sosial twitter. Sampai saat ini, penelitian yang dilakukan belum mengklasifikasikan konten radikal berdasarkan kriteria dari radikalisme, seperti di Indonesia, konten radikalisme ini sering dikaitkan dengan isu SARA (Suku, Agama, Ras, dan Antar golongan), namun terkadang konten yang disebarkan masih menimbulkan kesalahpahaman. Sehingga diperlukan analisis untuk mengetahui apakah konten yang di unggah di twitter teridentifikasi mengandung radikal atau tidak. Penelitian terkait radikalisme pada penelitian sebelumnya telah dilakukan, namun masih sedikit penelitian yang menerapkan model deep learning dan belum ditemukan penelitian yang menerapkan metode LSTM untuk konten radikalisme di twitter dengan teks berbahasa Indonesia. Penelitian ini bertujuan untuk melakukan klasifikasi konten radikalisme dengan dua tahap yaitu radikal dan non-radikal (binary-class) dan selanjutnya konten radikal diklasifikasikan berdasarkan kriteria radikal (multi-class) dengan menggunakan metode LSTM dan word2vec sebagai word vector representation. Klasifikasi berdasarkan kriteria radikal (multi-class) mengalami imbalance data sehingga diperlukan proses SMOTE. Dalam proses pengujian metode LSTM dengan word2vec akan dibandingkan antara radikal binary-class dan multi-class dengan metode K-NN, SVM dan random forest berdasarkan perhitungan nilai akurasi. Berdasarkan hasil pengujian diperoleh bahwa metode Long Short Term Memory dengan binary-class memiliki hasil akurasi yang lebih baik yaitu 84.17% dan multi-class 86.21%. Selanjutnya dibandingkan dengan metode K-NN diperoleh nilai akurasi 70%, SVM 80%, random forest 70,83% pada klasifikasi binary-class. Pengaruh media sosial memberikan peluang bagi pengguna media sosial untuk mendukung pemikiran radikalisme yang terus berkembang di media sosial twitter. Sampai saat ini, penelitian yang dilakukan belum mengklasifikasikan konten radikal berdasarkan kriteria dari radikalisme, seperti di Indonesia, konten radikalisme ini sering dikaitkan dengan isu SARA (Suku, Agama, Ras, dan Antar golongan), namun terkadang konten yang disebarkan masih menimbulkan kesalahpahaman. Sehingga diperlukan analisis untuk mengetahui apakah konten yang di unggah di twitter teridentifikasi mengandung radikal atau tidak. Penelitian terkait radikalisme pada penelitian sebelumnya telah dilakukan, namun masih sedikit penelitian yang menerapkan model deep learning dan belum ditemukan penelitian yang menerapkan metode LSTM untuk konten radikalisme di twitter dengan teks berbahasa Indonesia. Penelitian ini bertujuan untuk melakukan klasifikasi konten radikalisme dengan dua tahap yaitu radikal dan non-radikal (binary-class) dan selanjutnya konten radikal diklasifikasikan berdasarkan kriteria radikal (multi-class) dengan menggunakan metode LSTM dan word2vec sebagai word vector representation. Klasifikasi berdasarkan kriteria radikal (multi-class) mengalami imbalance data sehingga diperlukan proses SMOTE. Dalam proses pengujian metode LSTM dengan word2vec akan dibandingkan antara radikal binary-class dan multi-class dengan metode K-NN, SVM dan random forest berdasarkan perhitungan nilai akurasi. Berdasarkan hasil pengujian diperoleh bahwa metode Long Short Term Memory dengan binary-class memiliki hasil akurasi yang lebih baik yaitu 84.17% dan multi-class 86.21%. Selanjutnya dibandingkan dengan metode K-NN diperoleh nilai akurasi 70%, SVM 80%, random forest 70,83% pada klasifikasi binary-class.

Social media, especially Twitter might give their users more opportunities to support continuously developing radical ideas. No research classified radical contents based on radical criteria yet. For example, Indonesian radical contents were often related to issues on SARA (Ethnicity, Religion, Race, and Inter-group Relations). Yet the contents also often led to misunderstanding. In respect to this issue, an analysis was required. Contents uploaded on Twitter should be identified as radical-free or radical-contained. Regardless wide research on radicalism, in addition to only few ones that implemented the deep learning method, we found no research implementing LSTM method to analyze radical Indonesian contents on Twitter. The research aimed to classify radical contents in two stages i.e. radical and non-radical (binary-class). We classified radical contents based on radical criteria (multi-class) using LSTM method and word2vec as word vector representation. Due to imbalanced radical-criteria-based classification, we needed SMOTE technique. Finally, we compared LSTM with word2vec with K-NN, SVM and random forest method based on accuracy results. All methods were implemented to binary-class and multi-class. According to the testing result, long short term memory method with binary class showed higher accuracy 84.17%; while the method with multi-class showed accuracy 86.21%. Meanwhile KNN method showed accuracy 70%, SVM 80%, random forest 70,83% with binary-class classification

Kata Kunci : radicalism, twitter, deep learning, long short term memory, text classification

  1. S2-2020-422532-abstract.pdf  
  2. S2-2020-422532-bibliography.pdf  
  3. S2-2020-422532-tableofcontent.pdf  
  4. S2-2020-422532-title.pdf