Model Bahasa Recurrent Neural Network untuk Mesin Penerjemah Inggris-Indonesia
ANDI HERMANTO, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D.;Noor Akhmad Setiawan, S.T., M.T., Ph.D.
2016 | Tesis | S2 Teknik ElektroModel bahasa berbasis statistik dan berbasis jaringan syaraf saat ini masih mendominasi penelitian-penelitian di bidang mesin penerjemah. Mesin penerjemah berbasis statistik masih merupakan yang tercepat saat ini namun kelemahannya terletak pada akurasi, sedangkan mesin penerjemah berbasis jaringan syaraf memiliki akurasi yang tinggi tetapi sebaliknya mempunyai proses komputasi yang lambat. Masalah pembelajaran model bahasa secara keseluruhan mungkin terlalu sulit untuk dipecahkan sekaligus, masih banyak yang dipertanyakan, seperti berapa banyak data yang harus diproses selama pelatihan pada sebuah mesin dengan menggunakan banyaknya metode yang telah ditemukan sampai saat ini. Pada penelitian ini, perbandingan antara model bahasa dengan metode yang berbasis jaringan syaraf dengan mengadopsi model Recurrent Neural Network dan model bahasa metode yang berbasis statistik dengan model n-gram dilakukan dengan studi model 2 (dua) arah yaitu Inggris-Indonesia. Hasil evaluasi terhadap nilai perplexity kedua model bahasa menunjukkan bahwa dengan menggunakan model Recurrent Neural Network dapat menghasilkan hasil yang lebih baik. Untuk rata-rata penurunan nilai perplexity sebesar 10,6 persen untuk keseluruhan order pada korpus Bahasa Inggris dan 4 persen pada korpus Bahasa Indonesia. Sementara itu, nilai BLEU dan nilai RIBES mengalami peningkatan 0,3 dan 0,79 lebih tinggi daripada hasil yang dihasilkan dengan menggunakan model berbasis statistik.
At recent time, the statistical based language model and neural based language model are still dominating the researches in the field of machine translation. The statistical based machine translation today is the fastest one but it has a weakness in term of accuracy. In contrast, the neural based network has higher accuracy but has a very slow computation process. Problems learning language model as a whole may be too difficult to be solved at the same time, much remains questionable, such as how much data must be processed during training on a machine using a number of methods that have been discovered to date. In this research, a comparison methods between neural based network that adopts Recurrent Neural Network (RNN) and statistical based network with n-gram model for two-way English-Indonesian Machine Translation (MT) is conducted. The perplexity value evaluation of both models show that the use of RNN obtains a more excellent result. For the average decline in the value of perplexity by 10.6 percent for the entire order on English corpus and 4 percent in the Indonesian corpus. Meanwhile, Bilingual Evaluation Understudy (BLEU) and Rank-based Intuitive Bilingual Evaluation Score (RIBES) values increase by 0.3 and 0.79 higher than the results obtained using statistical based.
Kata Kunci : recurrent neural network, model bahasa, mesin penerjemah statistik