Laporkan Masalah

Pengembangan Animasi Gerak Bibir Berbasis Fonem Bahasa Indonesia

ANUNG RACHMAN, Dr. Ir. Risanuri Hidayat, M. Sc. ; Hanung Adi Nugroho, S.T., M.E., Ph.D.

2019 | Disertasi | DOKTOR TEKNIK ELEKTRO

Sinkronisasi pergerakan bibir dan mulut secara alami pada animasi merupakan bagian yang paling penting untuk meyakinkan peran karakter. Pada animasi gerak bibir otomatis, fonem dari input suara diklasifikasikan menjadi viseme (visual fonem), untuk menghasilkan bentuk mulut yang sesuai. Mirip dengan fonem pada audio, viseme didefinisikan sebagai unit visual paling kecil yang terbedakan. Secara visual, beberapa bentuk bibir karakter animasi (viseme) memiliki bentuk yang sama untuk suara yang berbeda. Hal ini menyebabkan gerak bibir menjadi tumpang tindih sehingga animasi menjadi kurang efisien. Untuk mengurangi gerak bibir tumpang tindih dapat dilakukan melalui pemetaan fonem ke viseme. Pemetaan digunakan untuk memberi label viseme atas fonem pada animasi gerak bibir. Para peneliti sebelumnya banyak yang mengembangkan peta fonem ke viseme untuk menjadi lebih akurat agar animasi menjadi lebih berkualitas. Karena viseme adalah visual, para peneliti sebelumnya fokus dalam hal klasifikasi visual bibir. Kebaruan pada penelitian ini adalah memanfaatkan unsur ciri suara khususnya pada bagian alofon (ragam vokal) sebagai pembanding ciri visual mengingat berasal dari sumber yang sama yaitu sistem produksi suara manusia. Melalui pre-processing, jika ciri suara alofon berbeda signifikan, maka seharusnya viseme juga berbeda kelas pada sebuah peta fonem ke viseme. Metode yang digunakan pada penelitian ini adalah Linear Predictive Coding untuk mengekstrak ciri suara. Ciri diantara alofon ini kemudian dicari signifikansi perbedaannya melalui uji statistik. Hasil uji kemudian digunakan sebagai pembanding terhadap kelas viseme alofon pada peta fonem ke viseme yang juga dibangun pada penelitian ini. Pengujian pengaruh pre-processing dilakukan melalui metode HMM yang membandingkan peta pada penelitian ini terhadap dua peta lain yang telah ada sebelumnya. Hasil pengujian menunjukkan bahwa pre-processing membuat tingkat kinerja peta menjadi lebih baik.

The natural synchronization of lip and mouth movements in animation is the most important part to assure the character's role. In automatic lip-synchronization animation, phonemes from sound input are classified into visual phonemes, to produce the appropriate mouth shape. Similar to phonemes in audio, viseme is defined as the smallest visual unit that is distinguished. Visually, some lips of animated characters (viseme) have the same shape for different sounds. This causes the lip movements to overlap so that the animation becomes less efficient. To reduce overlapping lip-synchronization it can be done through phoneme-to-viseme mapping. Mapping is used to label the viseme to the phonemes in lip-synchronization animation. Many previous researchers have developed phoneme-to-viseme maps to be more accurate so that animation becomes more quality. Because viseme is visual, the researchers previously focused on the visual classification of the lips. The novelty of this research is to utilize the element of sound features, especially in the allophones (vocal variety) as a comparison of visual features, considering that they originate from the same source, namely the human sound production system. Through pre-processing, if the allophonic sound features differ significantly, then the viseme should also be at different classes on a phoneme-to-viseme map. The method used in this study is Linear Predictive Coding to extract sound features. The features of these allophones are then searched for the significance of the difference through statistical tests. The test results are then used as a comparison to the allophone viseme class on the phoneme-to-viseme map which was also built in this study. Testing the effect of pre-processing is done through the HMM method that compares the map in this study to two other maps that have been there before. The test results show that pre-processing makes the level of map performance better.

Kata Kunci : animasi, lipsync, peta fonem ke viseme, viseme