Suatu Model Pengidentifikasi penutur dengan fungsi rapat peluang Gaussian
SULISTYANTO, Hernawan, Prof. Adhi Susanto, M.Sc.,Ph.D
2005 | Tesis | S2 Teknik ElektroManusia mampu mengenali lingkungannya dengan cara-cara yang luwes. Hal ini termasuk dalam mengenali manusia lain berdasarkan suara yang diucapkannya. Permasalahan dalam identifikasi penutur secara automatis adalah membangun suatu algoritma yang dapat mengidentifikasi seorang penutur hanya berdasar gelombang suaranya saja. Penelitian ini memaparkan suatu model pengidentifikasi penutur takgayut teks pada set tertutup menggunakan suatu model campuran Gaussian (GMM) berdasar fungsi rapat peluang (pdf) Gaussian. Pada tahap pelatihan, isyarat ucapan para penutur Indonesia dilatih secara individual. Ekstraksi feature menggunakan analisis koefisien cepstral mel-frekuensi (MFCC). Untuk memperoleh parameterparameter GMM dari setiap model penutur dipakai algoritma EM. Selanjutnya membangun suatu basis data parameter setiap model penutur. Pada tahap pengenalan, parameter ucapan pengujian suatu model penutur dibandingkan dengan parameter-parameter model penutur yang ada dalam basis data. Identifikasi berdasar pada kemungkinan maksimum kedekatan nilai antara parameter pengujian dan pelatihan dengan menerapkan metode penilaian kemungkinan maksimum (ML). Eksperimen meliputi variasi komponen campuran, panjang ucapan tes, tambahan derau, dan sistem waktu nyata. Hasil penelitian menunjukkan bahwa sistem mampu mengidentifikasi seorang penutur dengan tingkat keberhasilan tinggi. Ketepatan mengidentifikasi 100% pada nilai komponen campuran M = 6 sampai 30. Ketepatan mengidentifikasi 100% dicapai pada durasi ucapan tes minimum 1 detik. Pada kenyataannya, ketepatan mengidentifikasi 100% tanpa adanya derau akan menjadi 92% pada SNR = 90 dB dan 77% pada SNR = 80 dB.
Human recognize their environment with seemingly effortless manner. This includes recognizing other human solely on their voices. The problem of automatic speaker identification is then to build an algorithm that can identify a speaker based on the his/her speech wave. This research explains a closed-set of text independent speaker identificator model using a Gaussian Mixture Model (GMM) which based on Gaussian probability density function. In the training stage, signal of Indonesian speakers utterance were trained individually. Feature extractions were done using the Mel-Frequency Cepstral Coefficients (MFCC) analysis. To obtain the parameters of each speaker model, EM algorithm have been employed. Then build a database of parameter of each speaker model. In the recognition stage, the examination utterance parameters of a speaker model were compared by parameters of speaker models which there were in database. Identification based on maximum possibility according to value of parameters of training and examination by applying Maximum Likelihood (ML) estimation method. The experiment includes varying the mixture component, utterance length, additing noise, and real time system. Result of research indicate that the system able to identify a speaker with high successful rate. Accuration identify 100% at value of mixture component start from M = 6 until 30. Accuration identify 100% reached at examination utterance length minimum 1 second. Practically, accuration 100% with the absence of noise and down to 92% for SNR = 90 dB and 77% for SNR = 80 dB.
Kata Kunci : Isyarat Tutur,Gelombang Suara,Model GMM, speaker identification, GMM, MFCC, text-independent