MODIFIKASI PENJENDELAAN PADA FILTER BANK MFCC UNTUK PENGENALAN UCAPAN MANUSIA
Ihsanul Hajid, Prof. Dr. Ir. Risanuri Hidayat, M.Sc., IPM.; Dr. Bimo Sunarfri Hantono, S.T., M.Eng.
2025 | Tesis | S2 Teknik Elektro
Pengenalan suara dengan ucapan merupakan cara untuk mengidentifikasi atau memverifikasi kata yang diucapkan oleh pembicara. Meskipun pengenalan ucapan sudah banyak digunakan, terdapat beberapa tantangan besar, terutama dalam hal akurasi dan kestabilan sistem. Mel-Frequency Cepstral Coefficients (MFCC) merupakan salah satu teknik yang digunakan untuk mengekstraksi fitur audio. Dalam proses ekstraksi fitur MFCC terdapat tahapan yang disebut Mel Frequency Wrapping yang berbasis pada band-pass filter. Biasanya, band-pass filter ini menggunakan filter bank segitiga. Namun penggunaan filter bank jenis segitiga ini didapatkan akurasi yang belum optimal sehingga akurasi dalam sistem masih bisa ditingkatkan. Penelitian ini mengusulkan untuk membandingkan metode filter bank segitiga dengan beberapa metode jendela pada Mel Frequency Wrapping. Metode jendela yang dipilih untuk perbandingan adalah jendela Hamming, jendela Hanning, dan jendela Blackman. Data yang digunakan dalam penelitian ini berupa rekaman audio pengucapan angka 0 sampai 9 dalam bahasa Indonesia. Keempat jenis jendela pada penelitian ini menghasilkan nilai akurasi yang baik. Namun akurasi tertinggi yang didapatkan yaitu menggunakan jendela Hamming dengan nilai sebesar 92,85?ngan rata-rata MCC sebesar 0,92.
Speech recognition is a way to identify or verify words spoken by a speaker. Although speech recognition has been widely used, several major challenges remain, especially in terms of system accuracy and stability. Mel-Frequency Cepstral Coefficients (MFCC) is one technique used to extract audio features. In the MFCC feature extraction process, there is a stage called Mel Frequency Wrapping which is based on a band-pass filter. Typically, this band-pass filter uses a triangular filter bank. However, the use of this type of triangular filter bank has not achieved optimal accuracy, so the accuracy of the system can still be improved. This study proposes to compare the triangular filter bank method with several window methods in Mel Frequency Wrapping. The window methods chosen for comparison are the Hamming window, the Hanning window, and the Blackman window. The data used in this study are audio recordings of pronouncing the numbers 0 to 9 in Indonesian. All four types of windows in this study produce good accuracy values. However, the highest accuracy obtained is using the Hamming window with a value of 92.85% with an average MCC of 0.92.
Kata Kunci : MFCC, Mel Frequency Wrapping, Filter bank, Penjendelaan