Laporkan Masalah

Pengenalan Lafal Berdasar Ekstraksi Ciri Fonem Bahasa Indonesia

AGUNG PRIHANDONO, Drs. Agus Harjoko, M.Sc, Ph.D

2016 | Tesis | S2 Ilmu Komputer

Pengenalan lafal oleh mesin telah menjadi tujuan dari berbagai riset selama lebih dari empat dekade. Bermula dari ide yang sederhana yaitu agar sebuah mesin dapat mengenali ucapan yang disampaikan oleh manusia, kemudian menginterpretasikan maksud dari ucapan tersebut sesuai dengan arti yang terkandung di dalamnya. Salah satu manfaatnya adalah manusia dapat memberikan perintah pada sebuah mesin hanya dengan masukan berupa suara, kemudian mesin tersebut menjalankan aksi sesuai yang diperintahkan. Proses awal yang dilakukan pada penelitian ini adalah pengumpulan data latih. Data latih diperoleh dengan melakukan perekaman suara berupa pelafalan serangkaian kata dalam bahasa Indonesia. Penentuan kata didasarkan pada kombinasi fonem vokal yang berpasangan dengan fonem-fonem konsonan pada salah satu suku kata yang terkandung di dalamnya. Selanjutnya data latih dipotong-potong sesuai dengan fonem yang terdapat pada kata tersebut. Kemudian potongan fonem yang dihasilkan dikenai proses ekstraksi ciri. Data fonem yang diambil sebagai ciri adalah sebanyak sepuluh buah data latih untuk masing-masing fonem. Ekstraksi ciri dilakukan dengan menggunakan analisis linear predictive coding. Sebelum sebuah sinyal diproses untuk menghasilkan nilai koefisien, maka terlebih dahulu melalui proses penyaringan digital (digital filtering) berupa preemphasis dan frame blocking menggunakan metode penjendelaan hamming. Kemudian tahap berikutnya adalah analisis LPC yang menghasilkan serangkaian nilai koefisien LPC. Koefisien LPC ini dihitung dengan menggunakan nilai order p=10 sehingga menghasilkan nilai koefisien LPC sebanyak 11 buah untuk setiap fonem. Nilai koefisien inilah kemudian dijadikan dasar ciri dalam proses pengenalan suara. Proses pengenalan dilakukan dengan menghitung jarak Euclidean antara sinyal uji dengan data latih berdasarkan 11 buah nilai koefisien LPC. Hasil yang diperoleh adalah dapat mengenali secara tepat ketika dilakukan pengenalan terhadap berkas fonem yang digunakan sebagai data latih sistem. Namun pengenalan fonem terhadap masukan berupa 18 buah lafal kata memiliki tingkat keberhasilan sebesar 7% untuk batas ambang jarak 1, 21% untuk batas ambang jarak 1,3 dan 22% untuk batas ambang jarak 1,5.

Speech recognition has been the purpose of many recent research. begining with a simple thought that can a machine understand what human said to it. in this research, i want to propose a combinizing methods to recognize an Indonesian spoken word based on phonemic feature. The system consist of two parts. The first one is constructon of the phonemefeature data, and the second one is recognition module. Part one of the system which is to construct phonemic features from speech data. The speech data are series of indonesian spoken words that has been recorded five time each word. The choosen words determined by a combination of vocal and consonant on one of the syllable of the word. The words data truncated into pieces according to the phonemes that contain in it. After having these piece of phonem data, the next phase is feature extraction. Feature extraction has been obtained using Linear Predictive Coding methods. Before having the final coefficients of the LPC, the first step is preemphasis by digitized the speech signal through a low-order digital filtering. The second step is block the previous signal into frames using hamming window. Instead of using the autocorrelation step each frame of windowed signal is put through the LPC analysis. I admit that the processing of this LPC methods are incomplete. The process stop after obtain the basic LPC coefficients. The order of the LPC is p=10. These coefficients are used as the final features for recognition. The recognition system as the second part of the system consist of proposed methods to detect then recognize phonems and of course LPC methods for extraction the feature. The result of the recognition obtained by mearsuring the Euclidean distance between sample data and testing data. This system has been tested using pieces of all phonemes from training data and tested using 18 new recorded words. The system recognize with precisely while tested using sample data but not with the new recorded spoken word. The success rate for this new data are 7% for threshold of distance measurement 1, reaches 21% for threshold=1,3 and reaches 22% for threshold=1,5.

Kata Kunci : fonem,LPC,digital filtering,frame blocking,euclidean distance

  1. S2-2016-309775-abstract.pdf  
  2. S2-2016-309775-bibliography.pdf  
  3. S2-2016-309775-tableofcontent.pdf  
  4. S2-2016-309775-title.pdf