KLASIFIKASI BERKAS HASIL PEMINDAIAN IJAZAH BERDASARKAN TAHUN LULUS DAN JENIS SEKOLAH MENGGUNAKAN KLASIFIKASI TEKS DAN IMAGE
CHANDRA R ATMAJA, Ir. Hanung Adi Nugroho, S.T., M.E., Ph.D., IPM.; Dr.Eng. Igi Ardiyanto, S.T., M.Eng.
2020 | Tesis | MAGISTER TEKNOLOGI INFORMASIKriteria peserta seleksi masuk pendidikan tinggi adalah siswa SMA, MA, dan SMK dengan tahun kelulusan tiga tahun terakhir. Kriteria tersebut dapat diperoleh dan diverifikasi menggunakan berkas hasil pemindaian ijazah yang diunggah oleh peserta. Namun pada kenyataannya verifikasi yang dilakukan secara manual rentan terhadap kesalahan (human error). Machine learning dapat menjadi solusi untuk menggantikan pekerjaan manual verifikasi berkas hasil pemindaian ijazah. Informasi tahun kelulusan dan jenis sekolah dapat diperoleh dari teks pada berkas hasil pemindaian ijazah. Teks dapat diperoleh dari berkas tersebut menggunakan OCR. Namun penelitian-penelitian sebelumnya menyatakan bahwa klasifikasi teks menggunakan OCR rentan terhadap error jika berkas inputnya memiliki noise. Berkas hasil pemindaian ijazah memiliki border image yang dapat digunakan untuk mengklasifikasikan ijazah. Penelitian-penelitian sebelumnya sudah ada yang mengklasifikasikan teks dan image, namun tidak menggunakan teks hasil OCR. Klasifikasi teks dan image pada penelitian-penelitian sebelumnya menggunakan model weight fusion dan adaptive fusion. Kedua model tersebut dibandingkan dalam tesis ini. Penelitian tesis ini mengusulkan penggunaan decision strategy baru berdasarkan f1-score. F1-score dijadikan acuan decision strategy karena f1-score merepresentasikan perbandingan antara presisi dan recall. F1-score akan menentukan hasil prediksi dari model yang mana yang akan digunakan. Hasil penelitian ini menunjukkan model adaptive fusion memiliki akurasi 0,892, sedangkan model weight fusion memiliki akurasi 0,927. Akurasi terbaik diperoleh menggunakan kombinasi model weight fusion dengan f1-score decision strategy dengan akurasi yang meningkat menjadi 0,934.
The criteria for participants in higher education admission are SMA, MA and SMK gradutated students with the last three years of graduation. These criteria can be obtained and verified using the scanned diploma certificate file uploaded by the participants. However, in reality, manual verification is prone to human error. Machine learning can be a solution to replace manual verification of the scanned file. Information on the year of graduation and type of school can be obtained from the text on the scanned file. Text can be obtained from the file using OCR. However, previous studies stated that text classification using OCR is prone to errors if the input file has noise. The scanned file has a border image that can be used to classify it. Previous studies have classified text and images, but did not use OCR results. Text and image classification in previous studies used weight fusion and adaptive fusion models. The two models are compared in this thesis. This thesis research proposes the use of a new decision strategy based on the f1-score. The F1-score is used as a reference for the decision strategy because the f1-score represents the comparison between precision and recall. The F1-score will determine the predictive results of which model to use. The results of this study indicate that the adaptive fusion model has an accuracy of 0.892, while the weight fusion model has an accuracy of 0.927. The best accuracy is obtained using a combination of the weight fusion model with the f1-score decision strategy with an increased accuracy of 0.934.
Kata Kunci : klasifikasi teks, klasifikasi image, kombinasi model, machine learning, decision strategy