OPTIMASI SPEAKER IDENTIFICATION MENGGUNAKAN EKSTRAKSI FITUR MFCC-PCA DENGAN KLASIFIKASI ANN
MUHAMMAD RAAFI'U F, Dr. Ir. Risanuri Hidayat, M.Sc., IPM.;Ir. Agus Bejo, S.T., M.Eng., D.Eng., IPM.
2022 | Tesis | MAGISTER TEKNOLOGI INFORMASISuara menjadi salah satu karakter fisik teknologi biometrik untuk pengenalan identitas. Teknik untuk mengidentifikasi identitas pembicara dengan suara dinamakan speaker recognition. Perkembangan sistem pengenalan suara sangat meningkat belakangan ini. Speaker recognition secara umum memiliki dua proses utama, yaitu ekstraksi ciri dan pencocokan fitur. Kombinasi keduanya sangat menentukan besarnya akurasi dan kinerja dari sistem. Salah satu metode ekstraksi ciri yang paling sering digunakan dalam domain voice recognition adalah Mel-Frequency Cepstral Coefficient (MFCC). Namun, aplikasinya masih terdapat kelemahan dalam menghasilkan data fitur yang dapat merepresentatifkan sinyal suara dengan baik. Penelitian ini berfokus pada pengembangan model machine learning speaker identification menggunakan metode ekstraksi ciri MFCC ditambah dengan fitur dari Spectral Centroid dan Zero Crossing Rate (ZCR) yang akan dikombinasikan dengan Principal Component Analysis (PCA). Penggunaan PCA dimaksudkan untuk mereduksi data berdimensi tinggi dan redudan yang dihasilkan oleh proses MFCC. Tujuan penggabungan metode MFCC dan PCA adalah untuk mendapatkan akurasi maksimum dengan fitur yang lebih sedikit dan waktu pemrosesan yang lebih cepat. Metode klasifikasi yang digunakan pada penelitian ini adalah Jaringan Syaraf Tiruan (JST) untuk mendukung kinerja dari sistem. Dataset sinyal suara terdiri dari 800 data yang berasal dari 16 penutur. Pengujian divalidasi menggunakan teknik 8-fold Cross Validation yang akan membagi dataset menjadi data latih dan data validasi. Hasil penelitian menunjukkan bahwa penambahan proses PCA pada fitur MFCC membuat model memiliki tingkat akurasi yang lebih baik dibanding dengan hanya menggunakan MFCC konvesional saja. Pada kategori text dependent, hasil akurasi dengan fitur MFCC berjumlah 39 dimensi sebesar 95,37% dan meningkat menjadi 95,62% setelah direduksi menggunakan PCA pada dimensi berjumlah 22. Sedangkan untuk kategori text independent mendapatkan akurasi tertinggi pada fitur MFCC + PCA dengan jumlah dimensi 18 dengan nilai sebesar 77,08%.
Voice is one of the physical characteristics of biometric technology for identity recognition. The technique for identifying the speaker's identity by voice is called speaker recognition. The development of speech recognition systems has greatly increased in recent times. In general, speaker recognition has two main processes, namely feature extraction, and feature matching. The combination of the two greatly determines the accuracy and performance of the system. One of the most frequently used feature extraction methods in the voice recognition domain is the Mel-Frequency Cepstral Coefficient (MFCC). However, the application still has weaknesses in generating feature data that can represent voice signals well. This study focuses on developing a machine learning speaker identification model using the MFCC feature extraction method coupled with features from Spectral Centroid and Zero Crossing Rate (ZCR) which will be combined with Principal Component Analysis (PCA). The use of PCA is intended to reduce redundant and high-dimensional data generated by the MFCC process. The goal of combining MFCC and PCA methods is to get maximum accuracy with fewer features and faster processing time. The classification method used in this study is an Artificial Neural Network (ANN) to support the performance of the system. The voice signal dataset consists of 800 data from 16 speakers. The test is validated using the 8-fold Cross-Validation technique which will divide the dataset into training data and validation data. The results showed that the addition of the PCA process to the MFCC feature made the model have a better level of accuracy than using only conventional MFCC. In the text-dependent category, the accuracy results with the MFCC feature amounted to 39 dimensions of 95.37% and increased to 95.62% after being reduced using PCA on 22 dimensions. Meanwhile, the text-independent category got the highest accuracy on the MFCC + PCA feature with the number of dimensions 18 with a value of 77.08%.
Kata Kunci : Speaker Recognition, Speaker Identification, MFCC, PCA, ANN