Pengembangan Aplikasi Pengenalan Suara Speech-to-Text Bahasa Indonesia pada Laptop dan Dekstop : Pengembangan Model Sistem Pengenal Suara Automatic Speech Recognition for Indonesian Speech-to-Text (ARISE)

AHMAD ZAKY W, Dr. Ir. Risanuri Hidayat, M.Sc., IPM. , Dr. Indah Soesanti, S.T., M.T.

2020 | Skripsi | S1 TEKNIK ELEKTRO

Digitalisasi merupakan suatu perubahan dalam kemajuan teknologi yang mengintegrasikan dunia fisik, digital dan biologis sehingga terjadi perubahan mendasar dalam cara hidup manusia. Manusia yang pada awal mulanya menggunakan mesin ketik untuk menuliskan sebuah kata, kemudian beralih menggunakan komputer dibantu dengan keyboard. Dan saat ini, beberapa keyboard sudah menyatu dengan komputer itu sendiri sehingga mengetik hanya perlu menyentuhkan jari pada layar komputer atau yang biasa disebut dengan touchscreen. Namun, beberapa orang belum terbiasa dengan touchscreen tersebut sehingga perlu dikembangkannya alternatif lain yang disebut automatic speech recognition (ASR). ARISE bertujuan untuk memudahkan pengguna yang tidak bisa menggunakan keyboard dan disabilitas agar dapat mengetikkan suatu kata hanya dengan tutur kata. ARISE merupakan sistem aplikasi pengenal suara dapat mengenali kata "nol", "satu", "dua", "tiga", "empat", "lima", "enam", "tujuh", "delapan", dan "sembilan". Pemilihan kata menggunakan angka "nol" sampai "sembilan" dikarenakan angka termasuk kata yang sering diucapkan oleh banyak orang. Pengembangan aplikasi ARISE menggunakan metode ekstraksi ciri Mel Frequency Cepstral Coefficients (MFCC) dan Support Vector Machine (SVM) sebagai model klasifikasinya dan K-Nearest Neighbors (KNN) sebagai algoritma pembanding untuk model klasifikasi. Kata tersebut akan muncul di antarmuka aplikasi setelah sistem mengenali kata dari penutur. Hasil evaluasi model SVM pada tahap pengujian menghasilkan F1-score sebesar 92% untuk kata "nol", 92% untuk kata "satu", 84% untuk kata "dua", 90% untuk kata "tiga", 69% untuk kata "empat", 73% untuk kata "lima", 84% untuk kata "enam", 98% untuk kata "tujuh", 80% untuk kata "delapan", dan 89% untuk kata "sembilan".

Digitalization is a development in technology that integrates physical, digital and biological world. Therefore, some fundamental changes happened in the way people live. At first, humans used typewriters to write a document but then switched to computers which was assisted by keyboards. In the present some keyboards are integrated to the computer itself. Consequently, typing only requires a finger touch on the computer screen or what is commonly called a touchscreen. However, some people are not familiar with a touchscreen hence it is necessary to develop another alternative which then later called automatic speech recognition (ASR). ARISE aims to make easier for users who can't use a keyboard and user with disabilities to type a word only with speech. ARISE is a voice recognition application system that can recognize the words "nol", "satu", "dua", "tiga", "empat", "lima", "enam", "tujuh", "delapan", and "sembilan". The choice of words uses the numbers "nol" to "sembilan" because numbers are often spoken by many people. The development of ARISE application uses the feature extraction method Mel Frequency Cepstral Coefficients (MFCC) and Support Vector Machine (SVM) as the classification model and K-Nearest Neighbors (KNN) as the comparison algorithm for the classification model. The word will appear in the application interface after the system recognizes the word from the speaker. The evaluation results of the SVM model at the testing stage resulted in an F1-score of 92% for the word "nol", 92% for the word "satu", 84% for the word "dua", 90% for the word "tiga", 69% for the word "empat", 73% for the word "lima ", 84% for the word "enam ", 98% for the word "tujuh ", 80% for the word "delapan ", and 89% for the word "sembilan ".

Kata Kunci : ASR, Speech Recognition, pengenal tutur, SVM, MFCC, KNN

