Laporkan Masalah

Model Deteksi Teks pada Citra Natural Berbasis Pruned Maximum Tree

Ednawati Rainarli, Dr. Suprapto, M.I.Kom.; Wahyono, S.Kom., Ph.D.

2023 | Disertasi | S3 Ilmu Komputer

Deteksi scene text adalah bagian dari proses pengenalan teks pada citra natural.  Hasil deteksi scene text adalah bounding box yang menunjukkan lokasi dan keberadaan teks pada citra. Dalam deteksi scene text, metode MSER mampu menghasilkan nilai F-measure yang lebih tinggi dibanding Stroke Width Transform ataupun sliding window. Permasalahan deteksi teks pada citra natural adalah ketidakmampuan dari metode Maximally Stable Extremal Region (MSER) untuk mengekstrak semua kandidat komponen teks, adanya komponen teks yang terhapus setelah klasifikasi kelompok teks dan bukan teks, dan fakta bahwa proses penggabungan huruf memerlukan strategi agar kandidat huruf dapat digabungkan menjadi kata.  

Penelitian ini mengusulkan dua pendekatan untuk memperbaiki hasil pendeteksian teks pada citra natural, yaitu penghapusan kandidat hasil ekstraksi MSER yang muncul berulang (disebut Simplified MSER) dan penggunaan Pruned Maximum Tree (PMT). Masing-masing pendekatan untuk meningkatkan banyaknya kandidat-kandidat teks yang terekstrak. Selain itu, strategi penggabungan teks secara lokal dengan menggunakan pendekatan data pencilan pada PMT menjadi usulan yang digunakan dalam penelitian ini.  

Pengukuran performansi model deteksi teks dilakukan dengan menggunakan dua data set yaitu data citra dokumen, yaitu sertifikat sebagai data primer dan data set ICDAR 2013 sebagai data sekunder. Hasil pengujian menunjukkan bahwa penghapusan kandidat hasil ekstraksi MSER yang muncul berulang meningkatkan keberhasilan pendeteksian teks. Pada deteksi teks pada sertifikat menunjukkan bahwa PMT bekerja 3,4% lebih baik dari pada MSER dalam mendeteksi kandidat teks. Pengujian pada citra natural menggunakan data ICDAR 2013 menunjukkan bahwa ekstraksi kandidat menggunakan Simplified MSER dengan strategi pemotongan jumlah kandidat teks 1,9% lebih baik dibandingkan dengan PMT.

Scene text detection is part of the text recognition process in natural images. The result of scene text detection is a bounding box that indicates the location and presence of text in the image. In scene text detection, the Maximally Stable Extremal Region (MSER) method is capable of producing a higher F-measure than Stroke Width Transform or sliding window methods. The challenges in text detection in natural images include the inability of the MSER method to extract all candidate text components, the deletion of text components after text grouping and non-text classification, and the fact that the process of merging letters requires a strategy to combine candidate letters into words.

This research proposes two approaches to improve the results of text detection in natural images, namely the elimination of repetitive candidate results extracted from MSER (referred to as Simplified MSER) and the use of Pruned Maximum Tree (PMT). Each approach aims to increase the number of extracted text candidates. Additionally, the strategy of locally merging text using outlier data approach is proposed and employed in this research.

The performance measurement of the text detection model is conducted using two data sets: the document image data, specifically certificates as the primary data, and the ICDAR 2013 data set as the secondary data. The test results showed that the elimination of repetitive candidate results extracted from MSER improved the success of text detection. In text detection on certificates, it was found that PMT performed 3.4?tter than MSER in detecting text candidates. Testing on natural images using ICDAR 2013 data showed that candidate extraction using Simplified MSER with a candidate text reduction strategy is 1.9?tter compared to PMT.

Kata Kunci : deteksi scene text, komponen terhubung, maximum tree, MSER, pruning

  1. S3-2023-450292-abstract.pdf  
  2. S3-2023-450292-bibliography.pdf  
  3. S3-2023-450292-tableofcontent.pdf  
  4. S3-2023-450292-title.pdf