Laporkan Masalah

Algoritma genetik untuk pengolahan isyarat tutur

CADUM, Salman Abd, Promotor Prof.Dr.Ir. Prayoto, MSc

2004 | Disertasi | S3 Teknik Elektro

Penelitian yang telah dilakukan meliputi proses verifikasi dan pembuktian keaslian tutur yang merupakan upaya untuk mendapatkan bentuk gelombang ucapan suatu kalimat dalam kawasan waktu, serta ekstraksi ciri yang menghasilkan bentuk pola ciri ucapan tersebut yang digunakan sebagai kromosom masukan bagi algoritma genetik. Dalam penelitian ini tutur telah disintesis, sehingga teks-tutur mengkonversi kalimat teks di lapis komputer menjadi tutur suara alami hasil olahan komputer, yang dilengkapi dengan sinyal tutur visual yang dapat mengembangkan kecerdasan tutur, khususnya di dalam lingkungan derau putih. Melalui penelitian ini tutur dapat direkam (recorded) dan dimunculkan kembali (played back) berdasarkan kapasitas disk. Isyarat tutur direpresentasi langsung saat merekam suara, dianalisis, dan disajikan dalam bentuk grafik yang lebih komunikatif, seperti grafik bentuk gelombang, spektrum, spektrogram, dan puncak. Meskipun terdapat banyak variasi ucapan, yang terutama disebabkan oleh faktor-faktor seperti logat, dialek suatu daerah, jenis kelamin, usia, dan keadaan emosional seseorang, tetapi tutur yang dihasilkan dapat dimengerti oleh semua pendengar. Sumber basis data sampel yang telah digunakan dalam penelitian ini terdiri atas 190 orang, baik laki-laki maupun perempuan, orang tua atau anak kecil, mulai dari usia 6,5 tahun sampai usia 42 tahun yang diambil dari 43 kota/negara, yang masing-masing mengucapkan kata “mereka”, kalimat “mereka sangat gembira”, “selamat siang”, dan “saya mau main tenis di lapangan” dalam bahasa Indonesia. Analisis spektrum frekuensi dengan berbagai jendela meliputi awal penentuan teknik pengolahan isyarat tutur yang sesuai untuk mengubah data isyarat dalam kawasan waktu menjadi dalam kawasan frekuensi baik dengan skala linear maupun logaritmis. Spektrogram digunakan untuk membandingkan data audio/tutur untuk satu penutur maupun banyak penutur. Baik spektrum maupun spektrogram manggunakan alihragam Fourier cepat (FFT) matematis untuk melakukan analisis frekuensi. Puncak suatu ucapan dapat ditentukan. Algoritma genetik untuk memecahkan masalah tutur dalam penelitian ini dikodekan dalam tiga pengkodean, yaitu pengkodean biner, pengkodean nilai, dan pengkodean titik ambang. Algoritma genetik biner berjalan lebih cepat dibandingkan dengan algoritma genetik titik ambang dan algoritma genetik pengkodean nilai. Waktu pemrosesan AG pengkodean biner adalah 1 detik, waktu pemrosesan AG pengkodean titik ambang adalah 50 detik, sedangkan waktu pemrosesan AG pengkodean nilai adalah 2 menit dan 21 detik. Algoritma genetik biner memberi analisis nilai yang masih memerlukan beberapa kelahiran generasi lebih lanjut agar aktual dan serupa (seem as), yakni muncul rerata ketangguhan dan rerata deviasi pada urutan generasi yang sama. Sedangkan algoritma genetik titik ambang dan algoritma genetik nilai memberikan analisis yang aktual dan serupa, baik rerata ketangguhan maupun rerata deviasinya muncul secara aktual pada urutan generasi yang sama. Penyelesaian yang dihasilkan oleh algoritma genetik akan muncul di antara beberapa titik populasi dan generasi, sehingga penyelesaian yang ditemukan menghasilkan beban dan waktu pemrosesan yang relatif kecil. Dari penelitian ini diketahui bahwa tingkat kesalahan adalah nol, yang berarti algoritma genetik merupakan solusi yang tepat bagi pemrosesan tutur.

This study has been dealt with the process of verifying and collecting evidence of authenticity of speech as an effort to obtain the waveform of utterance of a sentence within a particular time span, and extracting characteristics that produce the pattern of the utterance characteristics, which then used as an input chromosome for genetic algorithm. In this study, the speech is synthesized so that the speech text coverts the text sentence at the computer level into a natural speech sound processed by the computer, which is provided with a visual speech signal capable of developing the speech intelligence, especially within a white noise environment. A speech has been recorded and played back according to the disk capacity. The speech signals are directly represented during the recording, then they are analyzed and presented in more communicative graphic forms, such as waveforms, spectra, spectrograms, and peak graphic forms. Although there are varied utterances, caused mainly by such factors as accent, dialect of certain region, gender, age, and the emotional state of the speaker, but the produced speech are well-understood by listeners. Sources of the databases that have been used in this study encompas 190 subjects, males and females, the aged or kids, with the range of ages from 6.5 to 42 years old taken from 43 cities/countries, each of which utters the word “mereka”, the sentence “mereka sangat gembira”, “selamat siang”, and “saya mau main tebis di lapangan”, in Indonesian language. Analysis of frequency spectrum from various windows encompasses the selection of appropriate techniques of speech signal processing to convert signal data within a certain time span into frequency span using both linear and logarithmic scale. Spectrogram is used to compare audio/speech data of one or many speakers. Both spectrum and spectrogram uses mathematical Fast Fourier Transform (FFT) to analyze frequency. The peak of an speech can be determined. In solving the speech problem of this study, the genetic algorithm is decoded in three coding modes, binary coding, floating point coding and value coding. The binary genetic algorithm runs faster than the floating point genetic algorithm and the value coding genetic algorithm. The processing time of the binary genetic algorithm coding is 1 second, the floating point genetic algorithm coding is 50 seconds, and the genetic algorithm value coding is 2 minutes and 21 seconds. The binary genetic algorithm provides value analysis that still needs the births of several further generations in order to be actual and similar, that is, the emergence of reliability average and deviation average on the same generation order. On the other hand, the genetic algorithms of the floating point and value coding provide actual and similar value analysis. Its reliability average and deviation average emerge in an actual way on the same generation order. The solution provided by genetic algorithm will emerge between several points of population and generation. Thus, the resulting solution produces relatively small load and less processing time. From the research, it is shown that the level of error is zero, which meant that the genetic algorithm is a good solution for speech processing.

Kata Kunci : Algoritma Genetik, Isyarat Tutur


    Tidak tersedia file untuk ditampilkan ke publik.