Laporkan Masalah

PERANGKINGAN TEKS MULTI-DOMAIN SEBAGAI PENDUKUNG TRANSLASI BAHASA ALAMI DENGAN MEMANFAATKAN PENDEKATAN STATISTIK BERDASARKAN TOPOLOGIS TAKSONOMI DAN POLA PENDISTRIBUSIAN RASIO EMAS

VICTOR PHOA, Dra. Sri Hartati, M.Sc, Ph.D,

2014 | Tesis | S2 Ilmu Komputer

Selama pengamatan dalam dekade terakhir terhadap hasil Penerjemahan Mesin, masih terdapat masalah dari segi kualitas terjemahannya. Beberapa mesin telah memiliki fitur pelengkap sebagai pendukung disambiguasi (unit variasi morfologi) melalui penyediaan pemilihan domain keilmuan. Sayangnya, metode ini biasanya bersifat statis atau berdomain tunggal karena pengguna harus menentukan sendiri domain korpusnya, sedangkan di lain sisi, perangkingan berdasarkan nilai indeks domain dengan metode tak terstuktur (flat) memberikan hasil yang masih belum maksimal. Berdasarkan adanya kendala dan kondisi sedemikian, maka penulis telah mengembangkan suatu metode dan pendekatan baru untuk mengindeks teks yang disebut Topological Taxonomy Term Statistical Ratio (T3SR), berdasarkan topologi taksonomi dan memanfaatkan fitur statistik kata, sifat distibutif (berdasarkan rasio emas), heuristik, dan relativitas. Metode T3SR ini telah diujicobakan pada 10 (sepuluh) korpus dan dibandingkan dengan metode flat yaitu Nearest Term Statistical Ratio (NTSR) dan Normalized Nearest Term Statistical Ratio (NNTSR). Berdasarkan hasil, metode T3SR mengungguli metode flat (yang memperoleh skor kelayakan 60%). Metode T3SR memberikan hasil pengindeksan, pola perangkingan, dan relevansi kelogisan yang sangat baik (dengan skor kelayakan 100%) sehingga dianggap layak untuk dapat diterapkan dalam praproses disambiguasi pada penerjemahan mesin.

During the observations in the last decade of the machine translation results, there is still a problem in terms of the quality of the translation. Some machines already have complementary features as the disambiguation support (morphological variation unit) through the domains selections. Unfortunately, these methods usually are static or as single domain because user must determine the domain of corpus, while on the other hand, rangking which based ond flat multi-domain indexing didn’t provide the good results. Under such constraints and conditions, the authors have developed new method and approach to indexing called Topological Taxonomy Term Statistical Ratio (T3SR), this based on taxonomy topology and utilize statistical feature, distributional properties (based on the golden ratio), heuristics, and relativity. This T3SR method has been tested on 10 (ten) corpus and compared with the flat method; Nearest Statistical Term Ratio (NTSR) and Normalized Ratio Nearest Statistical Term (NNTSR). Based on the results, the T3SR method outperformed the flat methods (which obtained 60% score of feasibility). T3SR method gives very good indexing results, rank patterns, and the relevance of the logic (100% score of feasibility), so it is considered very feasible to be applied in the disambiguation preprocess of machine translation.

Kata Kunci : pengindeksan, perangkingan, klasifikasi teks, mesin penerjemah, bahasa alami, disambiguasi, rasio emas


    Tidak tersedia file untuk ditampilkan ke publik.