Laporkan Masalah

Metode Bidirectional Long Short Term Memory Untuk Deteksi Hate Speech Bahasa Indonesia Menggunakan Word Embedding Glove

ABDUR RASYID, Dr. Agus Sihabuddin, S.Si., M.Kom.

2022 | Tesis | MAGISTER ILMU KOMPUTER

Ujaran kebencian atau hate speech merupakan komunikasi yang meremehkan seseorang atau kelompok berdasarkan karakteristik seperti ras, etnis, jenis kelamin, kewarganegaraan, agama dan organisasi. Deteksi ujaran kebencian sangat berperan dalam mencegah konflik yang mungkin dapat terjadi. Dalam mendeteksi ujaran kebencian, penggunaan word embedding word2vec mendapatkan hasil yang baik. Namun, word2vec hanya mengandalkan statistic kata lokal sehingga semantik yang dipelajari untuk kata tertentu, hanya dipengaruhi oleh kata-kata di sekitarnya. Pada penelitian ini menggunakan word embedding Glove yang dapat mempelajari semantik kata berdasarkan statistik kata global. Metode klasifikasi yang digunakan adalah Bidirectional Long Short Term Memory (BiLSTM) yang mempertimbangkan informasi sebelumnya dan selanjutnya. Metode BiLSTM merupakan perkembangan dari model LSTM yang menangkap informasi hanya satu arah. Penggunaan metode klasifikasi BiLSTM untuk deteksi hate speech bahasa Indonesia menggunakan word embedding Glove mampu mengahasilkan performa terbaik dibandingkan dengan metode konvensional lainnya. Hasil dari penelitian ini menunjukan nilai akurasi terbaik yaitu 0.8496.

Hate speech is communication that demeans a person or group based on characteristics such as race, ethnicity, gender, nationality, religion, and organization. Hate speech detection plays a very important role in preventing potential conflicts. In detecting hate speech, the use of word embedding word2vec got good results. However, word2vec only relies on local word statistics so the semantics learned for a given word are only affected by the surrounding words. In this research, Word embedding Glove is used which can study word semantics based on global word statistics. The classification method used is Bidirectional Long Short Term Memory (BiLSTM) which considers previous information and subsequent information. The BiLSTM method is a development of the LSTM model which captures information in only one direction. The use of the BiLSTM classification method for the detection of Indonesian hate speech using word embedding Glove can produce the best performance compared to other conventional methods. The results of this study indicate the best accuracy value is 0.8496.

Kata Kunci : Hate speech, Bidirectional LSTM, Glove, Word Embeddings, NLP

  1. ABSTRACT.pdf  
  2. S2-2019-448683-abstract.pdf  
  3. S2-2019-448683-bibliography.pdf  
  4. S2-2019-448683-tableofcontent.pdf  
  5. S2-2019-448683-title.pdf