Laporkan Masalah

Reduksi Fitur Pada Speech Recognition Bahasa Indonesia Menggunakan Principal Component Analysis

ALI NUR FATHONI, Dr. Ir. Risanuri Hidayat, M.Sc., IPM; Agus Bejo, S.T., M.Eng., D.Eng., IPM

2023 | Tesis | MAGISTER TEKNIK ELEKTRO

Speech recognition adalah aplikasi teknologi untuk berkomunikasi dengan mesin dengan mengidentifikasi kata-kata pembicara. Metode ekstraksi fitur merupakan salah satu bagian yang paling banyak dipelajari dalam penelitian pengenalan suara. Mel Frequency Cepstral Coefficient (MFCC) menjadi metode ekstraksi fitur populer yang banyak diterapkan pada sistem pengenalan suara. Selain itu, metode Linear Frequency Cepstral Coefficient (LFCC), Bark Frequency Cepstral Coefficient (BFCC), dan Gammatone Frequency Cepstral Coefficient (GFCC) juga telah banyak diterapkan. Setiap metode dapat memodelkan beberapa informasi dan dengan melakukan kombinasi dianggap dapat merepresentasikan lebih banyak informasi. Sistem kombinasi ekstraksi fitur menghasilkan lebih banyak data, dan reduksi dilakukan untuk mengurangi koefisien fitur. Penelitian ini membahas pengujian model machine learning pada masing-masing metode ekstraksi fitur dan kombinasi data fitur untuk menentukan tingkat akurasi terbaik. Selanjutnya, makalah ini juga membahas pengaruh penggunaan Princpal Component Ananlysis (PCA) yang diterapkan pada kombinasi fitur dalam mereduksi jumlah fitur. Support Vector Machine (SVM) diusulkan sebagai algoritma klasifikasi dan K-Nearest Neighbors (KNN) digunakan sebagai algoritma pembanding dalam penelitian ini. Sampel suara terdiri dari 800 dan 1000 data berupa kata bahasa Indonesia yaitu angka nol sampai sembilan (0-9). Hasil penelitian menunjukkan bahwa menggabungkan data fitur menghasilkan akurasi yang lebih baik daripada metode individual. Metode gabungan MFCC+BFCC+GFCC dan LFCC+BFCC+GFCC menghasilkan akurasi terbaik sebesar 99.38% sedangkan menggunakan metode independen menghasilkan akurasi terbaik sebesar 96.21% menggunakan metode GFCC. Menerapkan metode PCA ke LFCC+BFCC+GFCC dapat mengurangi dimensi fitur hingga 27 koefisien sambil mempertahankan tingkat akurasi tertinggi yaitu 99.38%. Penelitian ini diharapkan dapat menjadi referensi dalam penelitian pengenalan suara selanjutnya.

Speech recognition is the application of technology to communicate with a machine by identifying the speaker's words. The feature extraction method is one of the most studied parts of speech recognition research. Mel Frequency Cepstral Coefficient (MFCC) is a popular feature extraction method that is widely applied to speech recognition systems. In addition, the Linear Frequency Cepstral Coefficient (LFCC), Bark Frequency Cepstral Coefficient (BFCC), and Gammatone Frequency Cepstral Coefficient (GFCC) methods have also been widely applied. Each method can model some information and by doing combinations it is considered to represent more information. The combined feature extraction system generates more data, and subtractions are made to reduce the feature coefficient. This study discusses testing machine learning models for each feature extraction method and feature data combinations to determine the best level of accuracy. Furthermore, this paper also discusses the effect of using Principle Component Analysis (PCA) applied to feature combinations in reducing the number of features. Support Vector Machine (SVM) is proposed as a classification algorithm and K-Nearest Neighbors (KNN) is used as a comparison algorithm in this study. The voice sample consists of 800 and 1000 data in the form of Indonesian words, namely the numbers zero to nine (0-9). The results show that combining data features produces better accuracy than the individual methods. The combined methods of MFCC+BFCC+GFCC and LFCC+BFCC+GFCC produce the best accuracy of 99.38% while using independent methods produces the best accuracy of 96.21% using the GFCC method. The PCA to LFCC+BFCC+GFCC method model can reduce dimensional features up to 27 coefficients while maintaining the highest accuracy rate of 99.38%. This research is expected to be a reference in further speech recognition research.

Kata Kunci : Speech Recognition, Ekstraksi Fitur, Analisis Komponen Utama, Support Vector Machine, K-Nearest Neighbors

  1. S2-2023-467316-title.pdf