Recurrent Neural Network untuk Pendeskripsian Citra Otomatis Berdasarkan Anotasi Gambar
BILY MUHAMAD FACHRI, Isna Alfi Bustoni, M.Eng
2018 | Skripsi | S1 ILMU KOMPUTERPenelitian tentang pendeskripsian citra otomatis sudah pernah dilakukan. Pendekatan umum yang dilakukan adalah dengan mendeteksi objek menggunakan teknik computer vision, kemudian dilanjutkan dengan natural language processing untuk mengasilkan kalimat dari objek terdeteksi. Akan tetapi belum banyak penelitian yang hanya berfokus pada proses pembuatan kalimat deskripsi. Penelitian ini berfokus membuat sebuah model pendeskripsian citra otomatis berdasarkan anotasi gambar untuk mengetahui performa algoritma NLP tanpa adanya galat pada saat pendeteksian objek. Recurrent Neural Network LSTM digunakan sebagai model pembuat kalimat deskripsi pada penelitian ini. Pada tahap pengujian, diberikan tiga skenario dengan dan tanpa adanya kalimat konteks. Masing-masing skenario terdiri enam variasi parameter. Hasil kalimat deskripsi otomatis dievaluasi menggunakan ROUGE-1 dan BLEU. Berdasarkan hasil pengujian, nilai ROUGE tertinggi yaitu 0,7219 diperoleh dari model dengan 128 unit tersembunyi dan 64 masukan vektor, dan model lain dengan 256 unit tersembunyi dan 32 masukan vektor menghasilkan nilai BLEU tertinggi yaitu 0,9036.
Research about automatic image description has been done with several different approaches. One of the common approaches is detecting object using computer vision technique, then followed by natural language processing to generate the novel description sentence from an image. However, there is no experiment that only focused on the process of generating sentence. This study focused on constructing an automatic image description model based on image anotation to evaluate the performance of NLP algorithm without any error from the image detection process. Reccurent Neural Network LSTM was used in this study to generate sentence based on image anotation. In the experiment, given three scenarios with or without context sentence. Each scenario consists of six different parameter configurations. The description sentence made by the model is evaluated by ROUGE-1 and BLEU. The result of the experiment shows that the highest ROUGE score is 0,7219 obtained by model with 128 hidden unit and 64 dimension of vector inputs, while another model with 256 hidden unit and 32 demension of vector inputs obtain the highest BLEU score with 0,9036.
Kata Kunci : Pendeskripsian Citra Otomatis, Recurrent Neural Network, Long Short-Term Memory, Natural Language Generation