Laporkan Masalah

Sistem Pengenalan Ucapan untuk Angka dalam Bahasa Indonesia Menggunakan Elman Recurrent Neural Network yang Dioptimasi dengan Particle Swarm Optimization

MUHAMMAD FACHRIE, Drs. Agus Harjoko, M.Sc., Ph.D.

2014 | Tesis | S2 Ilmu Komputer

Penelitian ini bertujuan membangun sebuah sistem pengenalan suara otomatis (Automatic Speech Recognition System) untuk mengenali ucapan berupa angka dalam Bahasa Indonesia (angka 0 s.d. 9). Database berisi 1000 data suara yang masing-masingnya disegmentasi ke dalam sejumlah frame dengan panjang 25 ms dan panjang overlap antar frame sebesar 10 ms. Proses time alignment dilakukan dengan mengambil 10 frame secara proporsional dari keseluruhan frame yang dimiliki oleh setiap suara, kemudian dari masing-masing frame tersebut diekstrak 11 koefisien ciri MFCC, sehingga menghasilkan total 110 ciri MFCC untuk setiap suara. Recognizer yang digunakan dalam penelitian ini adalah Elman Recurrent Neural Network (ERNN) yang dilatih menggunakan Particle Swarm Optimization (PSO). Arsitektur terbaik dari ERNN yang dihasilkan adalah 110-20-10 dengan akurasi < 50%, yakni sebesar 43.60% dari total 1000 sampel suara (500 data latih + 500 data uji), jauh lebih rendah daripada akurasi ERNN yang dilatih menggunakan Backpropagation yang mencapai akurasi > 90%. Hal ini disebabkan oleh dimensi bobot jaringan ERNN yang sangat besar, sehingga ruang pencarian PSO pun semakin besar.

This research aims to build an Automatic Speech Recognition (ASR) system to recognize Indonesian spoken digits (0 through 9). Database contains 1000 utterances, and each of them is segmented into several frames with the size of 25 ms and 10 ms overlap. Time alignment processed by selecting 10 frames proportionally from all of the frames existing, then from each frame, 11 MFCC coefficients are extracted so that there are 110 MFCC coefficients for each utterance. Elman Recurrent Neural Network (ERNN) is used as recognizer which is trained by Particle Swarm Optimization (PSO). The best architecture of ERNN that was achieved is 110-20-10 with the accuracy < 50%, that is 43.60% from total of 1000 data (500 of training datas + 500 of testing datas), much less than ERNN trained by Backpropagation that reached the accuracy > 90%. This occurs because of the very high dimension of ERNN’s weight, so that, the searching area of PSO is also larger.

Kata Kunci : Speech Recognition, Elman Recurrent Neural Network, Particle Swarm Optimization, MFCC, Indonesian Digits


    Tidak tersedia file untuk ditampilkan ke publik.