Laporkan Masalah

Peningkatan Konsistensi Struktural Equation Pada Ekspresi Multi-Baris Dan Matriks Melalui Lora-Targeted Fine-Tuning Pada Decoder Gpt-2

Ni Nyoman Wulandari, Syukron Abu Ishaq Alfarozi, S.T., Ph.D. ; Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng., IPM., ASEAN Eng., SMIEEE.

2026 | Tesis | S2 Teknologi Informasi

Digitalisasi ekspresi matematika tercetak ke dalam format LaTeX (Mathematical Expression Recognition, MER) masih menghadapi tantangan signifikan pada ekspresi berstruktur dua dimensi, seperti persamaan multi-baris dan struktur matriks. Meskipun model image-to-LaTeX berbasis Transformer pralatih menunjukkan performa tinggi pada formula sederhana, ketahanannya terhadap kompleksitas struktural belum sepenuhnya dipahami dan sering kali dievaluasi menggunakan metrik agregat yang kurang sensitif terhadap kegagalan sintaks dan hierarki LaTeX. Penelitian ini mengevaluasi keterbatasan model image-to-LaTeX pralatih pada ekspresi matematis kompleks dan mengkaji efektivitas pendekatan parameter-efficient fine-tuning (PEFT) melalui Low-Rank Adaptation (LoRA) yang diterapkan secara terarah pada modul atensi decoder. Evaluasi dilakukan menggunakan dataset OleehyO/latex-formulas dengan pembentukan subset terkurasi berdasarkan kompleksitas struktural, mencakup ekspresi satu baris (easy) dan ekspresi multi-baris serta matriks (hard). Hasil menunjukkan bahwa model baseline mengalami degradasi performa yang signifikan pada ekspresi kompleks, yang didominasi oleh kesalahan struktural seperti kegagalan pemisah baris, ketidakseimbangan delimiter, dan inkonsistensi environment LaTeX. Analisis lebih lanjut memperlihatkan bahwa metrik agregat seperti BLEU tidak sepenuhnya merefleksikan heterogenitas dampak intervensi, sehingga evaluasi terstratifikasi berdasarkan kompleksitas dan kategori kesalahan diperlukan untuk interpretasi performa yang lebih akurat. Penerapan LoRA-targeted menghasilkan penurunan Character Error Rate yang substansial dan perbaikan konsistensi struktural pada subset kompleks, dengan hanya melatih kurang dari 0.2% total parameter model. Perbaikan terutama terlokalisasi pada kesalahan struktural lokal-berulang, sementara kesalahan yang memerlukan keputusan struktur global menunjukkan keterbatasan yang masih bertahan. Berdasarkan temuan tersebut, penelitian ini berkontribusi dengan menunjukkan bahwa evaluasi terstratifikasi yang dipadukan dengan adaptasi parameter terarah memungkinkan peningkatan robustness struktural yang lebih proporsional dan terdiagnosis secara lebih presisi dibandingkan pendekatan evaluasi dan pelatihan konvensional. Temuan ini menunjukkan bahwa adaptasi parameter yang terarah dapat menjadi pendekatan yang efektif dan efisien untuk meningkatkan robustness struktural sistem image-to-LaTeX, sekaligus menegaskan pentingnya evaluasi terstratifikasi dalam penelitian MER.

The digitization of printed mathematical expressions into LaTeX format (Mathematical Expression Recognition, MER) still faces significant challenges with two-dimensional structures, such as multi-line equations and matrices. Although pre-trained Transformer-based image-to-LaTeX models demonstrate high performance on simple formulas, their robustness against structural complexity is not yet fully understood and is often evaluated using aggregate metrics that are insufficiently sensitive to LaTeX syntax and hierarchical failures. This study evaluates the limitations of pre-trained image-to-LaTeX models on complex mathematical expressions and examines the effectiveness of a parameter-efficient fine-tuning (PEFT) approach via Low-Rank Adaptation (LoRA) applied specifically to the decoder attention modules. Evaluation was conducted using the OleehyO/latex-formulas dataset by forming curated subsets based on structural complexity, including single-line (easy) and multi-line or matrix (hard) expressions. The results indicate that baseline models experience significant performance degradation on complex expressions, dominated by structural errors such as line-break failures, delimiter imbalances, and environment inconsistencies. Further analysis reveals that aggregate metrics such as BLEU do not fully reflect the heterogeneous impact of interventions, suggesting that stratified evaluation based on complexity and error categories is essential for accurate performance interpretation. The application of targeted-LoRA yielded a substantial reduction in Character Error Rate and improved structural consistency in the complex subset, while training less than 0.2% of the total model parameters. Improvements were primarily localized in recurring local structural errors, whereas errors requiring global structural decisions showed persistent limitations. Based on these findings, this research contributes by demonstrating that stratified evaluation, combined with targeted parameter adaptation, enables more proportional and precisely diagnosed improvements in structural robustness compared to conventional evaluation and training approaches. These findings suggest that targeted parameter adaptation is an effective and efficient approach for enhancing the structural robustness of image-to-LaTeX systems, while reaffirming the importance of stratified evaluation in MER research.

Kata Kunci : Image-to-LaTeX, Mathematical Expression Recognition, LoRA, parameter-efficient fine-tuning, stratified evaluation, structural robustness

  1. S2-2026-524568-abstract.pdf  
  2. S2-2026-524568-bibliography.pdf  
  3. S2-2026-524568-tableofcontent.pdf  
  4. S2-2026-524568-title.pdf