Novel Hybrid Word Segmentation for Rule-Based Javanese-to-Latin Transliteration with Orthographic Preservation
Baskoro Adi Wicaksono, Dr. Bimo Sunarfri Hantono, S.T., M.Eng. ; Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D.
2025 | Tesis | S2 Teknologi Informasi
Aksara Jawa ditulis dengan gaya penulisan scriptio continua yang ditandai dengan tidak adanya tanda baca atau spasi antar kata pada suatu teks. Gaya penulisan scriptio continua menimbulkan tantangan bagi proses transliterasi aksara Jawa ke aksara Latin, karena hasil transliterasi perlu disegmentasi untuk memperjelas hasil transliterasi. Proses segmentasi kata dengan menggunakan metode dictionary-based menghadapi kendala ketika terdapat ambiguitas dalam proses segmentasi maupun kata yang tidak terdaftar dalam kamus. Hal ini dapat mempengaruhi keakuratan proses segmentasi kata, yang sangat penting untuk memastikan keandalan hasil transliterasi.
Untuk mengatasi masalah tersebut, tiga tipe bidirectional recurrent neural network (RNN) dieksplorasi dalam penelitian ini. Ketiga tipe RNN yang dieksplorasi adalah Simple RNN, Long Short-Term Memory (LSTM), dan Gated Recurrent Unit (GRU). Training dataset yang digunakan pada peneitian ini terdiri dari 7.819 baris tembang Jawa yang telah disegmentasi secara manual, dengan total 28.896 kata. Proses k-fold cross-validation diterapkan untuk mengidentifikasi model yang paling efektif di antara ketiga tipe RNN tersebut.
Berdasarkan evaluasi, model dengan arsitektur Bidirectional Gated Recurrent Unit memiliki performa yang paling optimal. Model tersebut kemudian dikombinasikan dengan proses segmentasi kata menggunakan metode dictionary-based. Testing dataset terdiri dari 1.548 baris tembang Jawa yang berisi total 5.515 kata. Segmentasi kata dengan model Bidirectional GRU yang digabungkan dengan metode dictionary-based berhasil mencapai skor F1 sebesar 0,8811 pada testing dataset.
Setelah segmentasi kata, proses transliterasi dilakukan dengan mengikuti pedoman dari Javanese General System of Transliteration, sebuah standar transliterasi aksara Jawa ke aksara Latin yang diperkenalkan pada tahun 2022 sebagai hasil dari Kongres Aksara Jawa I. Pedoman ini dirancang untuk mempertahankan ortografi dari aksara Jawa. Untuk menerapkan pedoman tersebut, sistem transliterasi dikembangkan dengan menggunakan metode pemetaan antar karakter berbasis aturan. Dengan metode yang dikembangkan, hasil transliterasi mencapai skor Character Error Rate (CER) sebesar 3.34?n Word Error Rate (WER) sebesar 27.52%,
The Javanese script follows a scriptio continua writing style, lacking explicit word boundaries. This characteristic pose significant challenges in Javanese-to-Latin transliteration, necessitating word segmentation to ensure clarity. Dictionary-based segmentation methods face limitations, particularly with out-of-vocabulary (OOV) problems and segmentation ambiguities. These issues can adversely affect the accuracy of word segmentation, which is crucial for the reliability of the transliteration output.
To address these challenges, this study explored three bidirectional recurrent neural network (RNN) types: Simple RNN, Long Short-Term Memory (LSTM), and Gated Recurrent Unit (GRU). The training dataset consisted of 7,819 manually segmented lines of Javanese poetry, totaling 28,896 words. A k-fold cross-validation technique was conducted to identify the most effective among the three.
Evaluation results indicate that the Bidirectional Gated Recurrent Unit is the most effective. It was subsequently combined with a dictionary-based segmentation method. The testing dataset included 1,548 lines of Javanese poetry, totaling 5,515 words. The Bidirectional GRU model, when integrated with the dictionary-based method, achieved an F1 score of 0.8811 in word segmentation on the test dataset.
Following the segmentation process, transliteration was performed following the Javanese General System of Transliteration (JGST), introduced in 2022 as an outcome of Kongres Aksara Jawa I, that lays out the guideline for Javanese-to-Latin transliteration. This guideline is designed to preserve the orthography of the Javanese script. To adhere to it, a rule-based character-to-character mapping approach was employed. The proposed approach yielded a Character Error Rate (CER) of 3.34% and a Word Error Rate (WER) of 27.52%.
Kata Kunci : Javanese-to-Latin transliteration, word segmentation, bidirectional gated recurrent unit, character-to-character mapping