PENENTUAN INTONASI SECARA OTOMATIS DALAM SINTESIS UCAPAN BAHASA INDONESIA
YOHANES SUYANTO, Prof. Subanar, Ph. D
2014 | Disertasi | S3 Ilmu KomputerProsodi dalam sistem sintesis ucapan (text-to-speech) merupakan penentu tinggi rendah nada, durasi, dan keras lemah bunyi ucapan. Intonasi adalah bagian prosodi yang menentukan tinggi rendah nada ucapan. Dalam bahasa Indonesia intonasi ditentukan oleh struktur kalimat, jenis kalimat, dan juga posisi kata dalam kalimat. Dalam penelitian ini diusulkan model penentuan intonasi ucapan dengan menggunakan perpaduan antara struktur kalimat, pola intonasi dari contoh kalimat, dan kaidah umum pengucapan bahasa Indonesia. Model menerima masukan berupa teks dan pola intonasi. Masukan teks dinormalisasi sehingga bilangan dan simbol berubah menjadi kata-kata. Hasil normalisasi digunakan oleh modul analis kalimat, pemilih pola, dan sintesis. Modul analis kalimat mengolah teks menjadi beberapa frase untuk menentukan posisi jeda. Modul pemilih pola bertugas memilih pola berdasar panjang kalimat. Berdasarkan kaidah umum pengucapan bahasa Indonesia disusunlah berkas yang berupa deretan fonem dan prosodinya oleh modul sintesis. Pengubahan grafem menjadi fonem menggunakan aturan umum dan memperhatikan cara pengucapan khusus bila ada. Unsur jeda diakomodasi dari modul analis kalimat sedang pola hasil pemilih pola digunakan untuk mengoreksi tinggi rendah nada ucapan (pitch). Modul sintesis mengirim hasil akhir deretan fonem dan prosodi ke modul pembangkit ucapan. Penelitian ini menggunakan suara asli penyiar dari berita radio sebagai acuan. Suara ini diproses menggunakan aplikasi Praat untuk mendapatkan intonasi yang digunakan oleh modul pemilih pola. Sebagai pembangkit ucapan digunakan aplikasi MBROLA. Hasil penelitian menunjukkan bahwa model yang diusulkan dapat diimplementasikan. Proses normalisai dan penerapan pola berjalan dengan baik. Pada analis kalimat, jika menemui kalimat yang tidak sesuai dengan struktur yang sudah ada dalam sistem, maka penentuan jeda dari modul ini akan diabaikan. Pengujian kemiripan hasil sintesis dilakukan dengan membandingkan suara asli penyiar dengan hasil sintesis. Dengan metode PESQ (Perceptual Evaluation of Speech Quality) diperoleh nilai rata-rata 1,579 pada skala MOS-LQO (Mean Opinion Score – Listening Quality Objective).
Prosody in speech synthesis systems (text-to-speech) is a factor of tone, duration, and loudness of speech sound. Intonation is a part of prosody which determines the speech tone. In Indonesian intonation is determined by the structure of sentences , types of sentences , and also the position of the word sentence. In this study a model is proposed that intonation speech can be determined by a combination of sentence structure, intonation patterns of the sample sentence, and the general rules of Indonesian pronunciation. The model receives input in a text and an intonation pattern. The text input is normalized so it is free of numbers and symbols. The result of normalization used by sentence analyst, pattern selector, and synthesis modules. Sentence analyst module was proceed the text into phrases to determine where are the pause position. The pattern selector module is in charge of selecting a pattern based on sentence length. Under the general rules of Indonesian pronunciation made a phonemes and its prosody file by synthesis module. Delay element accommodated from sentence analyst module. A pattern as the pattern selector results used for pitch correcting. The synthesis module send the final results phonemes and prosody to sound generator module. This study uses original voice announcer of radio news as a reference. These sounds are processed using Praat application to get the intonation patterns used by the selector pattern module. As speech generator used an MBROLA application. The results showed that the proposed model can be implemented. Normalization process and the applying intonation pattern worked well. At the analyst sentence, if there is a sentence that does not comply with the existing structures in the system, then the determination the pause interval of this module will be ignored. Similarity testing is done by comparing the original voice with a synthesized one. With the PESQ Perceptual Evaluation of Speech Quality) method obtained an average value 1.579 on MOS-LQO (Mean Opinion Score - Listening Quality Objective) scale.
Kata Kunci : sintesis ucapan, PESQ, intonasi, bahasa Indonesia