Analisis Metode Augmentasi Generative Adversarial Network untuk Data Balancing pada Pengenalan Ekspresi Wajah
MUHAMMAD FARRAS ILHAMI, Indah Soesanti, Dr., S.T., M.T. ; Igi Ardiyanto, Dr.Eng. Ir., S.T., M.Eng., SMIEEE.
2024 | Skripsi | TEKNOLOGI INFORMASI
Ekspresi wajah dapat memberi tahu emosi seseorang. Pembelajaran fitur-fitur ekspresi wajah dapat digunakan di berbagai bidang interaksi manusia-komputer. Dengan menggunakan AI (Artificial Intelligence), fitur-fitur ekspresi wajah dapat ditemukan dan emosi seseorang dapat diketahui. AI memerlukan data yang banyak dan cukup seimbang untuk mendapatkan hasil yang bagus, tetapi kebanyakan data bersifat tidak seimbang. Data tidak seimbang merupakan data yang memiliki distribusi kelas yang tidak rata. Masalah ini dapat mengakibatkan bias kepada kelas mayoritas dan overfitting. Salah satu metode untuk mengatasi masalah tersebut adalah dengan oversampling. Oversampling adalah metode yang menambahkan data baru ke dalam kelas minoritas. Metode augmentasi merupakan metode oversampling yang efektif untuk mendapatkan performa yang cukup bagus dari data yang terbatas. Metode augmentasi menggunakan data yang sudah ada dari data orisinal untuk membuat data baru. Dalam penelitian ini, metode augmentasi GAN (generative adversarial network) digunakan untuk menambah data baru agar data pelatihan rata. Penelitian ini menentukan efektivitas penggunaan GAN untuk pengenalan ekspresi wajah dan faktor-faktor yang mempengaruhi kualitas citra yang dihasilkan oleh GAN.
GAN merupakan sebuah model generatif yang dapat membuat data baru. GAN dibagi menjadi dua bagian, yaitu generator dan discriminator. Generator bertugas untuk menghasilkan data baru dan dicriminator memiliki akses kepada data asli yang tersedia pada dataset dan data yang dibuat oleh generator. Discriminator menentukan bahwa data yang diterima merupakan data asli (berasal dari data orisinal) atau data palsu (dihasilkan oleh generator). GAN yang digunakan dalam penelitian ini adalah gabungan dari beberapa macam GAN yang bertujuan untuk meningkatkan kualitas hasil citra dari GAN. GAN yang digunakan adalah DCGAN (Deep Convolutional GAN) sebagai basis GAN, SAGAN (Self-Attention GAN) untuk mendapatkan fitur-fitur wajah, dan WGANGP (Wasserstein GAN dengan Penalti Gradien) untuk pelatihan yang stabil. Label atau kelas data juga dimasukkan dengan citra pada GAN. Proses klasifikasi ekspresi wajah dilakukan oleh sebuah CNN (Convolutional Neural Network). Selain itu, sebuah algoritma, algoritma Viola-Jones, digunakan untuk mendapatkan kualitas data yang lebih tinggi. Algoritma ini dapat mendeteksi wajah pada suatu citra. Algoritma ini digunakan dalam data pelatihan agar pelatihan GAN lebih berkualitas dan pada pemasukan data baru ke dalam data orisinal agar data yang dimasukkan memiliki sesuatu yang menyerupai wajah.
Hasil penelitian ini menunjukkan bahwa metode augmentasi GAN memberi hasil tidak signifikan dibandingkan tanpa menggunakan augmentasi. Ekspresi wajah yang dihasilkan oleh GAN juga cenderung netral. Ini diakibatkan oleh dataset yang digunakan memiliki variasi yang tinggi dan emosi manusia yang kompleks. Data yang digunakan juga memiliki beberapa label membingungkan. Label yang dimiliki oleh data tersebut menyatakan ekspresi yang tidak sesuai dengan emosi subjek. Pelabelan ini dapat mengkontribusi kepada hasil GAN yang kurang baik. Alasan-alasan tersebut mengakibatkan hasil yang cenderung netral dan mengurangi akurasi pengenalan ekspresi wajah. Oleh karena itu, GAN merupakan metode yang tidak efektif untuk mengatasi data balancing pada proses pengenalan ekspresi wajah.
Facial expressions can tell what emotions a person is experiencing. Learning facial expression features can be used in various human-computer interaction systems. By using AI (Artificial Intelligence), facial expression features can be discovered and a person’s emotions can be known. AI requires a huge amount of data and needs to be fairly balanced to get good results. However, the reality is that most data is unbalanced. Unbalanced data is data that has an uneven class distribution. This problem can result in a bias towards the majority class and overfitting. One method to overcome this problem is by oversampling. Oversampling is a method that adds new data to the minority class. The augmentation method is an effective oversampling method for getting fairly good performance from limited data. The augmentation method uses existing data from the original data to add new data. In this research, the GAN (Generative Adversarial Network) augmentation method is used to add new data so that the training data is balanced. This research determines the effectiveness of using GANs for facial expression recognition and the factors that influence the quality of images produced by GANs.
GAN is a generative model that can create new data. GAN is divided into two parts, namely the generator and the discriminator. The generator is tasked with generating new data and the discriminator has access to the original data available in the dataset and the data created by the generator. The discriminator determines whether the data it receives is real data (comes from original data) or fake data (generated by a generator). The GAN used in this research is a combination of several types of GAN which aims to improve the quality of the image results from the GAN. The GANs used are DCGAN (Deep Convolutional GAN) as the base GAN, SAGAN (Self-Attention GAN) to obtain facial features, and WGAN-GP (Wasserstein GAN with Gradient Penalty) for stable training. Data labels or classes are also included with the image in the GAN. The facial expression classification process is carried out by a CNN (Convolutional Neural Network). In this research, an algorithm is used, the Viola-Jones algorithm, to obtain higher data quality. The Viola-Jones algorithm is an algorithm that can detect faces in an image. This algorithm is used in training data so that GAN training is of higher quality and in inserting new data into the original data so that the inputted data has something that resembles a face.
The results of this study show that the GAN augmentation method gives insignificant results compared to without using augmentation. The facial expressions produced by GANs also tend to be neutral. This is caused by the data used having high variations and complex human emotions. The data used also has some confusing labels. The labels contained in the data have expressions that do not match the subject’s emotions. This labeling can contribute to the poor GAN result. Due to these reasons, the GAN produces results that tend to be neutral and reduce the accuracy of facial expression recognition. Therefore, GAN is an ineffective method for dealing with data balancing in the facial expression recognition process.
Kata Kunci : Pengenalan Ekspresi Wajah, Metode Augmentasi, GAN, Penyeimbangan Data