PENGENALAN PEMBICARA MENGGUNAKAN MEL FREQUENCY CEPSTRAL COEFFICIENT DAN SELF-ORGANISING FUZZY LOGIC
SITI ROCHIMAH H, Dr. Ir. Risanuri Hidayat, M.Sc., IPM. ; Dr. Eng Agus Bejo, S.T., M.Eng., IPM.
2021 | Tesis | MAGISTER TEKNIK ELEKTROPengenalan pembicara adalah teknik biometrik berdasarkan karakteristik suara, di mana suara manusia merupakan bunyi yang memiliki gelombang dengan ciri khas yang berbeda. Perbedaan gelombang-gelombang tersebutlah yang dijadikan sebagai fitur yang diekstraksi pada sistem pengenalan pembicara. Mel Frequency Cepstral Coefficients (MFCC) merupakan suatu metode yang digunakan untuk mengekstraksi fitur-fitur pada sistem pengenalan pembicara, di mana metode ini mengubah suara menjadi ciri-ciri yang meniru karakteristik pendengaran manusia. Tujuan penelitian ini untuk menghasilkan karakteristik fitur yang lebih baik dengan menggabungkan metode MFCC dan tahap offline SOF sehingga akurasi sistem meningkat. Self-Organizing Fuzzy Logic (SOF) merupakan pengembangan dari metode logika fuzzy. Penelitian ini berjalan dengan menggunakan data suara dari 10 orang dan mengucapkan kata kunci yang sama untuk sistem dependent text, digunakan 600 data suara dari 10 orang tersebut, yang terdiri dari 60 data untuk setiap orang. Setelah data diekstraksi di MFCC dan dinormalisasi, data dikalikan dengan matriks kovariansi SOF untuk masing-masing kelas, dan kemudian untuk mendapatkan hasil akhir dipilih K-Nearest Neighbor (KNN) sebagai metode klasifikasi. Tingkat akurasi performa sistem yang dihasilkan gabungan metode MFCC dan SOF dalam penelitian ini mencapai 97,15%, dan dengan sensitivitas 97,63%, dan spesifisitas 99,69%. Hasil tersebut menunjukkan bahwa gabungan metode MFCC dan SOF lebih baik dibandingkan dengan hasil dari metode MFCC sendiri.
Speaker recognition is a biometric technique based on the voice characteristics. where the human voice is a sound that has waves with different characteristics. The difference in these waves is used as an extracted feature in the speaker recognition system. Mel Frequency Cepstral Coefficients (MFCC) is one of the methods that used for extracting the features on speaker recognition system, Where this method turn the voice into features characteristics that imitating the characteristics of human hearing. The aim of this research is to produce better feature characteristics by combining the MFCC method and the offline SOF stage so that the system accuracy increases. Self-Organizing Fuzzy Logic (SOF) is a development of the fuzzy logic method. This research was conducted by using voice data from 10 people, and uttering the same keywords for the dependent text system, 600 voice data from 10 people consisting of 60 data for each person. After the data is extracted at MFCC and normalized, the data is multiplied by the SOF covariance matrix for each class, and to get the final result K-Nearest Neighbor (KNN) is selected as the classification method. The accuracy level of system performance produced by the combination of MFCC and SOF methods in this study reached 97.15%, with sensitivity 97.63%, and specificity of 99.69%. These results indicate that the combination of MFCC and SOF methods is better than the results of the MFCC method itself.
Kata Kunci : Speaker Recognition, MFCC, SOF, KNN