Metode Bidirectional Long Short Term Memory dan Pendekatan Ekstraksi Fitur Word2vec Untuk Deteksi Hate Speech Terhadap Tokoh Politik Indonesia
AULIYA RAHMAN ISNAIN, Dr. Yohanes Suyanto, M.I.Kom; Dr. Agus Sihabuddin, S.Si., M.Kom
2019 | Tesis | MAGISTER ILMU KOMPUTERPerbincangan mengenai ujaran kebencian saat ini sedang hangat di Indonesia, terutama melalui media sosial. Ujaran kebencian merupakan komunikasi yang meremehkan sesorang atau kelompok berdasarkan karakteristik seperti ( ras, etnis, jenis kelamin, kewarganegaraan, agama dan organisasi). Twitter salah satu media sosial yang digunakan seseorang untuk mengutarakan perasaan dan opini melalui tweet, termasuk tweet yang megandung ujaran kebencian. Karena twitter mempunyai pengaruh besar bagi kesuksesan ataupun kehancuran citra seseorang. Penelitian ini bertujuan untuk mendeteksi ujaran kebencian atau bukan ujaran kebencian dengan mengunakan metode Bidirectional Long Short Term Memory dan metode ekstrasi fitur word2vec dengan arsitektur Continuous bag-of-word (CBOW). Untuk pengujian metode BiLSTM dengan perhitungan nilai akurasi, presisi, recall, dan F-measure. Penggunaan word2vec dan metode Bidirectional Long Short Term Memory dengan arsitektur CBOW, dengan epoch 10, learning rate 0.001 dan jumlah neuron 200 pada layer tersembunyi, menghasilkan tingkat akurasi 91,08%, dengan masing-masing nilai presisi 92,00%, recall 90,20% dan F-measure 91,09%. Sedangkan untuk Bidirectional Long Short Term Memory dengan tiga layer memiliki akurasi 93,06%. Penambahan satu layer pada BiLSTM meningkat 1,98%.
The conversation about hate speech is currently warm in Indonesia, primarily through social media. Hate speech is a communication that disparages a person or group based on such characteristics (race, ethnicity, gender, nationality, religion and organization). Twitter is one of the social media that someone used to express feelings and opinions through tweets, including tweets with hate speech because Twitter has a significant influence on the success or destruction of one's image. This research aims to detect hate speech or non-hate speech by using the Bidirectional Long Short Term Memory method and the Word2vec feature extraction method with the Continuous bag-of-word (CBOW) architecture. For testing BiLSTM method with the calculation of accuracy, precision, recall, and F-measure values. The use of Word2vec and the Bidirectional method of Long Short Term Memory with CBOW architecture, with epoch 10, learning rate 0.001 and the number of neurons 200 on the hidden layer, generates an accuracy rate of 91,08%, with each precision value of 92,00%, 90,20% recall and F-measure 91,09%. As for the Bidirectional Long Short Term, Memory with three layers has 93,06% accuracy. The addition of one layer to BiLSTM increased by 1,98%.
Kata Kunci : Hate Speech, LSTM, BiLSTM, Word2vec, CBOW, Skipgram, Twitter.