Laporkan Masalah

ANALISIS PENILAIAN TES URAIAN SINGKAT BAHASA INDONESIA DENGAN PROSES AUGMENTASI DATASET

NUR FADILAH, Dr. Sigit Priyanta, S.Si., M.Kom dan Yunita Sari, S.Kom., M.Sc., Ph.D.

2022 | Tesis | MAGISTER ILMU KOMPUTER

Penilaian dalam bentuk tes uraian merupakan salah satu penilaian yang sering digunakan oleh pendidik untuk mengetahui kemampuan siswa secara mendalam. UKARA merupakan pengembangan penilaian tes uraian secara otomatis. UKARA dalam penerapannya menggabungkan NLP dengan proses pembelajaran mesin terawasi. Dari beberapa pengembangan yang dilakukan terindikasi bahwa ketepatan prediksi jawaban benar dan salah bukan hanya dipengaruhi oleh model, namun dataset yang digunakan masih sedikit dan cenderung tidak stabil untuk proses training. Penambahan dataset dapat dilakukan dengan proses manual dan proses augmentasi. Proses augmentasi yang digunakan dalam penelitian ini adalah SMOTE (Synthetic Minority Oversampling Technique) dan EDA (Easy Data Augmentation Techniques) Penelitian ini menggunakan dataset yang disediakan untuk UKARA challenge yang terdiri dari 2 jenis, dataset A dan B. Tujuan yang ingin dicapai dalam penelitian ini adalah meningkatkan akurasi penilaian tes uraian singkat dengan penambahan dataset menggunakan proses augmentasi, mengetahui kualitas data yang dihasilkan dari proses augmentasi, dan mengetahui performa model dengan proses augmentasi. Performa model dilihat pada nilai accuracy, precision, recall dan f-measure. Hasil penelitian menunjukkan bahwa pada data A, metode EDA Sinonim Indobert dan EDA Random Deletion memiliki akurasi yang lebih tinggi dibandingkan data awal, dengan nilai akurasi sebesar 82.83% dan 82.46% dari nilai akurasi data awal sebesar 81.71%. Sedangkan untuk data B, metode EDA Sinonim Indobert, EDA Random Deletion dan EDA Random Swab memiliki akurasi yang lebih tinggi dibandingkan nilai akurasi data awal dengan nilai masing-masing sebesar 70.16%, 69.50%, dan 70.16% dari nilai akurasi data awal sebesar 69.50%.

Essay-based assessment is one of the assessments often used by educators to determine students' abilities in depth. UKARA is the development of an automatic essay test assessment. UKARA's application combines NLP and a supervised machine learning process. From several developments carried out indicated that the accuracy of predictions of correct and false answers is not only influenced by the model, but the dataset used is still small and tends to be unstable for the training process. The addition of data sets can be performed through manual processes and an augmentation procedure. The augmentation methods employed in this study are SMOTE (Synthetic Minority Oversampling Technique) and EDA (Easy Data Augmentation Techniques). This study uses the datasets provided for the UKARA challenge which consists of 2 types, datasets A and B. The objectives to be achieved in this study are to improve the accuracy of the assessment of the short description test by adding datasets using the augmentation process, knowing the quality of data generated from the augmentation process, and knowing the performance of the model with the augmentation process. Model performance results in accuracy, precision, recall and f-measurement. The results showed in data A, the EDA Indobert Synonym method and EDA Random Deletion had a higher accuracy than the initial data, with an accuracy value of 82.83% and 82.46% of the initial data accuracy value of 81.71%. As for data B, the EDA Indobert Synonym method, EDA Random Deletion and EDA Random Swab have a higher accuracy than the initial data accuracy value with values of 70.16%, 69.50%, and 70.16% respectively from the initial data accuracy value of 69.50%.

Kata Kunci : Automatic Essay Scoring, Data Augmentation, Fasttext, BiLSTM, EDA, SMOTE

  1. S2-2022-466427-abstract.pdf  
  2. S2-2022-466427-bibliography.pdf  
  3. S2-2022-466427-tableofcontent.pdf  
  4. S2-2022-466427-title.pdf