Laporkan Masalah

KONVERSI CITRA EKSPRESI MATEMATIKA TERCETAK MENJADI SIMBOL MATEMATIS LATEX MENGGUNAKAN ALGORITMA TEMPLATE MATCHING OPTIMIZED SUM OF ABSOLUTE DIFFERENCE (OSAD)

ADITYA WIKAN MAHASTAMA, Prof. Sri Hartati, M.Sc, Ph.D; Aina Musdholifah, S.Kom, M.Kom, Ph.D

2016 | Tesis | S2 Ilmu Komputer

Penelitian mengenai pengenalan ekspresi matematika terus mengalami perkembangan, seiring berkembangnya peralatan interaksi dengan manusia dan bertambahnya minat dalam menyalin dokumen ilmiah ke dalam bentuk elektronik. Proses pengenalan ekspresi matematika tercetak dapat dibagi ke dalam dua langkah utama: pengenalan simbol dan analisis struktural. Pengenalan simbol bekerja untuk melakukan segmentasi citra dan mengenali simbol ekspresi dengan benar. Analisis struktural bertujuan untuk menentukan hubungan antar simbol yang ditemukan, untuk merekonstruksi kembali ekspresi matematika secara lengkap. Penelitian ini melakukan pengenalan terhadap citra ekspresi matematika tercetak, menggunakan algoritma Optimized Sum of Absolute Difference (OSAD) sebagai salah satu algoritma template matching terkini untuk langkah pengenalan simbol, average face sebagai template, serta mengusulkan sebuah model pohon simbol untuk mencatat hasil analisis struktural yang merepresentasikan ekspresi serta dapat direkonstruksi dalam bentuk luaran notasi simbol matematis LaTeX. Hasil yang didapatkan dari penelitian ini adalah bahwa (1) tingkat akurasi pengenalan dengan algoritma OSAD adalah 95% untuk seluruh simbol dan 100% untuk simbol pelatihan yang diujikan kembali, serta (2) model pohon simbol yang diusulkan dapat digunakan untuk merepresentasikan struktur ekspresi sepanjang untuk dituliskan kembali dan bukan untuk dioperasikan. Namun, keberhasilan keseluruhan proses konversi sangat tergantung pada keberhasilan tahap segmentasi simbol yang mempengaruhi hasil perhitungan OSAD serta ketepatan penentuan sumbu baris ekspresi yang mempengaruhi akurasi proses pelabelan dalam menyusun pohon simbol.

Research on printed mathematical expression recognition is still evolving accordingly to the vast growth of human-machine interaction and the growing need to convert archived scientific documents into electronic documents. The process of recognising printed mathematical expression itself can be divided into two general processes: symbol recognition - which is similar to character recognition and works by segmenting symbols and recognising the result - and structural analysis which reads the structure of the expression, the relation between symbols within the structure, provide adequate labeling to preserve it, and finally be useful to reconstruct the whole expression. This research focused on recognising images of printed mathematical expression, proposing the usage of Optimized Sum of Absolute Difference (OSAD), a newly proposed image template matching algorithm, as the recognition engine for the symbol recognition process, average face as the matching template, and a novel symbol tree model to preserve the expression structure, on purpose to reconstruct each expression into a sentence of LaTeX mathematical symbols. Results obtained from tests conducted are (1) the accuracy of OSAD is well about 95% on various test images, and 100% for test images used in training phase, (2) the proposed symbol tree is adequate to preserve the structure of expressions, on purpose to rewrite the expressions into another format only. However, these results can only be achieved under a succesful symbol segmentation, which put effect on accuracy of OSAD accuracy to recognise,and a right choice of line axis positions which affects the recognition of the structure and hence the symbol tree labeling accuracy.

Kata Kunci : Pengenalan pola, pengenalan ekspresi matematika tercetak, OSAD, pohon simbol, pohon ekspresi, segmentasi