TEGUH PUJI WIDIANTO, Dr. Agus Sihabuddin, S.Si.,M.Kom


Deteksi penipuan (fraud) menggunakan kartu kredit terkendala dengan distribusi dataset yang imbalanced yaitu dataset dengan label fraud mempunyai jumlah yang lebih kecil atau minoritas. Karena hal tersebut hasil klasifikasi akan menjadi bias karena tingginya accuracy hanya mencerminkan mayoritas kelas. Selain itu hasil klasifikasi menunjukan sensitifitas yang rendah. Untuk meningkatkan hasil klasifikasi pada data yang imbalaced digunakan teknik oversampling yaitu dengan menambah data baru pada label minoritas, dimana GAN (Generative Adversarial Network) merupakan salah satu metode untuk membuat data baru yang lebih relistik. Akan tetapi, GAN memiliki kelemahan diantaranya adalah ketidakstabilan untuk mencapai convergence sehingga diperlukannya optimasi. Optimasi GAN dapat dilakukan dengan mengubah cost function, menambahkan label pada data training dan juga optimasi neural network yang digunakan. Pada penelitian sebelumnya optimasi GAN dilakukan dengan mengubah cost function yaitu pada WGAN-GP(Wassertein Generative Adversarial Network Gradient Pinalty), menambahkan auxilary classifier pada arsitektur GAN dan menambahkan label pada CWGAN-GP(Conditional Wassertein Generative Adversarial Network Gradient Pinalty) yang dilakukan pada dataset gambar. Peneliti ini mengunakan WGAN-GP dan CWGAN-GP yang dioptimasi menggunakan Auxilary classifier untuk oversampling data fraud pada transaksi kartu kredit. Hasil oversampling diuji menggunakan algoritma klasifikasi seperti Logistic Regression (LG), Support Vector Machine (SVM), Random Forest(RF), Naive Bayes(NB), dan Extreme Gradient Boosting (XGB) yang menghasilkan recall tertinggi 0.82, accuracy 0.99, ROC 0.91 dan precision 0.91. Hasil tersebut lebih baik dari sebelum dilakukan oversampling.

Detection of fraud using credit cards is constrained by the distribution of imbalanced datasets, namely datasets with fraud labels having smaller or minority numbers. Because of this, the classification results will be biased where high accuracy does not mean optimal classification results, especially if the recall and ROC are low. To improve the classification results on unbalanced data, an oversampling technique is used for namely by adding new data to the minority label, where GAN (Generative Adversarial Network) is the most method to create the new data. However, GAN has weaknesses such as instability to achieve convergence so that optimization is needed. GAN optimization can be solve by changing the cost function, adding labels to the training data and also optimizing the neural network used. In previous studies, GAN optimization was carried out by changing the cost function, namely WGAN-GP (Wassertein Generative Adversarial Network Gradient Pinalty) and adding labels to CWGAN-GP (Conditional Wassertein Generative Adversarial Network Gradient Pinalty). In this study, optimization was carried out with an image dataset that was different from the dataset in this study in the form of tabular data. The WGAN-GP and CWGAN-GP trials on tabular data, especially the fraud dataset on credit cards, have not achieved maximum results. This research uses WGAN-GP and CWGAN-GP which are optimized by Auxilary classifier for oversampling of fraud data on credit card transactions. The oversampling results were tested using classification algorithms such as Logistic Regression (LG), Support Vector Machine (SVM), Random Forest (RF), Naive Bayes (NB), and Extreme Gradient Boosting (XGB) which resulted in the highest recall of 0.82, accuracy 0.99, ROC 0.91 and a precision of 0.91. the result from this research is better than before oversampling.

Kata Kunci : GAN, kartu kredit, fraud

