Laporkan Masalah

Teknik Augmentasi dan Penyeimbangan Dataset Menggunakan Generative Adversarial Networks

Glory Aditya Jauzaulbahi, Prof. Ir. Oyas Wahyunggoro, M.T., Ph.D. ; Prof. Dr. Ir. Sasongko Pramono Hadi, DEA., IPU.

2025 | Skripsi | S1 TEKNIK BIOMEDIS

Ketersediaan dataset yang tidak setara jumlahnya di tiap kelas (imbalanced dataset) menjadi kendala utama dalam pengembangan sistem cerdas (intelligent system) yang optimal. Permasalahan ini disebabkan oleh berbagai faktor selama proses akuisisi data di dunia nyata, mulai dari keterbatasan modalitas dan rendahnya jumlah sampel akibat kelangkaan kasus penyakit, hingga legalitas perizinan dan privasi data menghambat perolehan data yang representatif. Penggunaan imbalanced dataset menyebabkan penurunan kinerja model klasifikator sistem cerdas (intelligent system), terutama dalam klasifikasi kelas minoritas. Penelitian dilakukan untuk mengimplementasikan model generatif sebagai teknik augmentasi data guna menyeimbangkan imbalanced dataset. Dengan memanfaatkan model generatif untuk menghasilkan data sintetis, diharapkan diperoleh dataset yang seimbang dan dapat meningkatkan kemampuan generalisasi sistem cerdas (intelligent system). 

Metode penelitian menggunakan dua arsitektur model generatif, Generative Adversarial Networks (GAN) dan Variational Autoencoders (VAE). Keduanya dilatih dengan data minoritas untuk menghasilkan data sintetis, dan hasil kinerja keduanya dievaluasi secara visual dan numeris. Augmentasi data dilakukan dengan menyatukan hasil data sintetis dari model generatif dengan data minoritas sehingga diperoleh dua dataset baru GAN dan VAE yang telah seimbang jumlah datanya. Kedua dataset bersama imbalanced dataset dibagi menjadi data latih (train) dan data uji (test) dengan proporsi data latih:data uji sebesar 0,8:0,2. Digunakan 3 model klasifikator (SVM, Random Forest, KNN) yang dilatih dengan data latih (train) dan diuji pada data uji (test), untuk dievaluasi kinerja setiap model dengan metrik evaluasi klasifikasi. 

Hasil evaluasi model generatif menunjukkan bahwa model Generative Adversarial Networks (GAN) memiliki keunggulan dibandingkan dengan Variational Autoencoders (VAE) dalam menghasilkan data sintetis yang lebih mirip dan mendekati data asli. Metrik Fréchet Inception Distance (FID) untuk model GAN bernilai 0,2249, sedangkan pada VAE sebesar 0,86. Selain itu, nilai metrik Structural Similarity Index (SSIM) untuk model GAN mencapai 0,5655, sementara VAE memiliki nilai 0,5600, yang menunjukkan bahwa data sintetis yang dihasilkan oleh GAN memiliki kesamaan struktur dan distribusi fitur yang lebih baik dibandingkan dengan data sintetis yang dihasilkan oleh VAE. Evaluasi kinerja tiga model klasifikator pada dataset baru hasil augmentasi data GAN menunjukkan peningkatan yang signifikan, terutama pada model KNN yang mencapai akurasi 91?n F1-Score 90% untuk kelas data arteri, dibandingkan dengan akurasi 82?n F1-Score 81% pada dataset lama. Berdasarkan hasil evaluasi tersebut, dapat disimpulkan bahwa GAN lebih unggul dan efektif dibandingkan dengan VAE sebagai teknik augmentasi data untuk menyeimbangkan imbalanced dataset. Penelitian selanjutnya disarankan untuk mengeksplorasi variasi arsitektur GAN yang lebih kompleks atau mengombinasikannya dengan teknik augmentasi data lainnya.

The availability of imbalanced datasets, where the number of instances in each class is unequal, is a major challenge in the development of optimal intelligent systems. This issue arises from various factors during the data acquisition process in real-world scenarios, such as limitations in modalities, small sample sizes due to the rarity of certain diseases, and legal and privacy concerns that hinder the collection of representative data. The use of imbalanced datasets leads to a decline in the performance of classifier models, particularly in the classification of minority classes. This research aims to implement generative models as a data augmentation technique to balance imbalanced datasets. By leveraging generative models to generate synthetic data, it is expected to obtain a balanced dataset, which can enhance the generalization ability of intelligent systems. 

The research methodology employs two generative model architectures: Generative Adversarial Networks (GAN) andVariational Autoencoders (VAE). Both models are trained using minority class data to generate synthetic data, and their performance is evaluated both visually and numerically. Data augmentation is performed by combining the synthetic data generated by the generative models with the minority class data, resulting in two balanced datasets, GAN and VAE. These datasets, along with the original imbalanced dataset, are split into training and test datasets with an 80:20 ratio. Three classifier models (SVM, Random Forest, KNN) are trained on the training data and tested on the test data, with the performance of each model evaluated using classification metrics. 

The evaluation results of the generative models show that Generative Adversarial Networks (GAN) outperform Variational Autoencoders (VAE) in generating synthetic data that closely resembles the original data. The Fréchet Inception Distance (FID) metric for GANis 0.2249, whereas for VAE it is 0.86. Additionally, the Structural Similarity Index (SSIM) for GAN is 0.5655, while VAE has a value of 0.5600, indicating that the synthetic data generated by GAN has better structural and feature distribution similarity to the original data compared to VAE. The performance evaluation of the three classifier models on the augmented GAN dataset shows a significant improvement, particularly with the KNN model, which achieves an accuracy of 91% and an F1-Score of 90% for the artery data class, compared to an accuracy of 82% and an F1-Score of 81% on the original dataset. Based on these evaluation results, it can be concluded that GAN is superior and more effective than VAE as a data augmentation technique for balancing imbalanced datasets. Future research is recommended to explore more complex GAN architectures or combine them with other data augmentation techniques.

Kata Kunci : Teknik Augmentasi Data, Imbalanced Dataset, Intelligent System, Generative Adversarial Networks, Variational Autoencoders

  1. S1-2025-446460-abstract.pdf  
  2. S1-2025-446460-bibliography.pdf  
  3. S1-2025-446460-tableofcontent.pdf  
  4. S1-2025-446460-title.pdf