PERBANDINGAN EKSTRAKSI CIRI FULL SPECTROGRAM IMAGE, BLOCKS SPECTROGRAM IMAGE, DAN ROW MEAN SPECTROGRAM IMAGE DALAM MENGIDENTIFIKASI PEMBICARA
LA ODE HASNUDDIN S. SAGALA, Drs. Agus Harjoko, M.Sc., Ph.D
2013 | Tesis | S2 Ilmu KomputerPada sebuah sistem identifikasi pembicara, pemilihan metode ekstraksi ciri dan ukuran ciri yang digunakan mempengaruhi tingkat keakuratan identifikasi. Berkaitan dengan hal itu, dalam penelitian ini akan dijabarkan perbandingan tiga metode ekstraksi ciri CBIR yaitu row mean image, full image, dan blocks image. Ketiga metode tersebut digunakan untuk mengidentifikasi pembicara dengan menitikberatkan pada ukuran selection feature vector yang digunakan. Data suara diperoleh dari rekaman suara menggunakan handphone. Rekaman suara berasal dari 10 orang narasumber dengan rincian 5 pria dan 5 wanita. Setiap narasumber mengucapkan lima buah kalimat yaitu Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, dan Dengan Siapa serta diulangi delapan kali tiap kalimat. Sebelum penerapan metode CBIR, rekaman suara yang digunakan terlebih dahulu dikonversi menjadi image spectrogram menggunakan STFT. Spectrogram yang terbentuk kemudian diteruskan ke kekre transform lalu diekstraksi cirinya. Penggunaan kekre transform bertujuan untuk menyeleksi dan mengambil kemungkinan-kemungkinan ciri yang optimal serta juga meringankan proses komputasi. Menggunakan data reference 250 image spectrogram dan data testing 150 image spectrogram memberikan hasil bahwa metode ekstraksi ciri full image memperoleh persentase identifikasi lebih tinggi yaitu 93,3% dengan ukuran fitur 32x32.
On a speaker identification system, selection extraction feature methods and feature size are used affect the accuracy of identification. In that regard, this study will presents comparison three extraction feature CBIR methods namely full image, blocks image, and row mean image. The third methods is used for identify the speaker with emphasis on the selection feature vector are used. Sound data obtained from and recorded used mobile phone voice recording. Sound recordings are from 10 speakers with details of 5 men and 5 women. Every speakers pronounce the five sentences namely Selamat Pagi, Selamat Siang, Selamat Sore, Selamat Malam, and Dengan siapa as well as each sentence was repeated eight times. Before the applications of CBIR methods, sound recordings used converted into spectrogram image using STFT. Spectrogram are formed then forwarded to in transform kekre for extracted feature. Use kekre transform aims to select and take the possibilities optimal characteristics also alleviate the computing process. Using reference data 250 spectrogram image and testing data 150 spectrogram image provides results that the full image feature extraction methods obtain a higher percentage of identification is 93.3% with a feature size of 32x32.
Kata Kunci : Identifikasi pembicara, Spectrogram, Kekre transform, Full image, Blocks image, Row mean image