Laporkan Masalah

Komparasi Metode Penyelesaian Masalah Data Imbalance pada Convolutional Neural Network

Roby Attoillah, Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng.; Ir. Wahyu Dewanto, M.T.

2023 | Skripsi | TEKNOLOGI INFORMASI

Saat ini, jumlah data yang tersedia terus mengalami peningkatan. Ketersediaan data dalam jumlah yang besar menjadi salah satu aspek penting dalam proses latih model Deep Learning. Data yang memiliki jumlah distribusi kelas yang seimbang merupakan data yang ideal. Namun pada praktik di kehidupan nyata, data yang tersedia tidak selalu memiliki distribusi kelas yang seimbang. Dampaknya, model akan lebih cenderung pada kelas mayoritas dan memperbesar peluang kesalahan klasifkasi pada kelas minoritas. Karakteristik yang ditimbulkan tersebut dapat berakibat kepada performa model yang buruk pada kelas minoritas.

Pada penelitian ini, penulis akan melakukan penelitian mengenai metode-metode penyelesaian kasus data imbalance pada salah satu arsitektur Deep Learning, yaitu Convolutional Neural Network (CNN). Penulis akan melakukan komparasi terhadap metode-metode penyelesaian kasus data imbalance yang diaplikasikan pada model CNN, yaitu oversampling, undersampling, focal loss, dan cost-sensitive learning. Komparasi ini dilakukan dengan menguji performa skor F1 model CNN pada dataset yang dibuat menjadi tidak seimbang. Set distribusi data yang dibuat berasal dari dataset CIFAR-10 dengan mengurangi jumlah sampel pada kelas minoritas menjadi set data distribusi dengan rasio ? ? {3, 10, 200} dan fraksi kelas minoritas µ ? {0.1, 0.5, 0.9}.

Hasil pengujian menunjukkan bahwa metode-metode penyelesaian kasus data imbalance secara umum mampu meningkatkan performa klasifkasi model Convolutional Neural Network (CNN) pada beberapa distribusi set data yang tidak seimbang. Metode yang paling efektif dalam meningkatkan performa model pada kasus data imbalance pada penelitian ini adalah metode cost-sensitive learning yang mengalami peningkatan performa skor F1 model pada semua kasus distribusi dibandingkan dengan model basis. Hasil pengujian statistik juga menunjukkan bahwa cost-sensitive learning secara signifkan meningkatkan performa model dibandingkan dengan model lainnya.

Currently, the available amount of data continues to increase. The availability of a large amount of data is an important aspect in the process of training Deep Learning models. Ideally, the data should have a balanced class distribution. However, in reallife practice, the available data does not always have a balanced class distribution. As a result, the model will tend to favor the majority class and increase the chances of misclassifcation errors in the minority class. These characteristics can lead to poor model performance on the minority class.

In this study, the author will conduct research on methods for addressing data imbalance issues in one of the Deep Learning architectures, namely Convolutional Neural Network (CNN). The author will compare the methods for addressing data imbalance issues applied to CNN models, including oversampling, undersampling, focal loss, and cost-sensitive learning. The comparison will be done by evaluating the F1 score performance of the CNN model on an imbalanced dataset. The data distribution sets used in the study are derived from the CIFAR-10 dataset by reducing the number of samples in the minority class, resulting in data distribution sets with a ratio ? ? 3, 10, 200 and a minority class fraction µ ? 0.1, 0.5, 0.9.

The test results show that the methods for addressing data imbalance issues generally improve the classifcation performance of Convolutional Neural Network (CNN) models on several imbalanced data distribution sets. The most effective method for improving model performance in data imbalance cases in this study is cost-sensitive learning, which enhances the F1 score performance of the model in all distribution cases compared to the baseline model. The statistical test results also indicate that cost-sensitive learning signifcantly improves model performance compared to other models

Kata Kunci : data imbalance, cost-sensitive learning, focal loss, oversampling, undersampling

  1. S1-2023-444068-abstract.pdf  
  2. S1-2023-444068-bibliography.pdf  
  3. S1-2023-444068-tableofcontent.pdf  
  4. S1-2023-444068-title.pdf