Handling Imbalance Fraud Data Using Sampling Method

M SYAMIL SUMANJAYA

M SYAMIL SUMANJAYA, Edi Winarko, Drs., M.Sc., Ph.D

2022 | Skripsi | S1 ILMU KOMPUTER

Abstrak
File Pdf

Di era baru di mana transformasi digital telah menjadi hal umum di sektor industri. Transformasi digital memberikan industri dengan peluang yang yang tak tertandingi. Transformasi digital telah melanda seluruh sektor industri. Saat industri mengadopsi teknologi baru yang imersif, mereka juga menghadapi risiko penipuan baru. Fraud adalah tindakan kriminal yang dimaksudkan untuk menghasilkan keuntungan finansial secara pribadi. Dengan bantuan teknologi canggih, penjahat mengembangkan mekanisme baru untuk melakukan penipuan. Penelitian ini bertujuan untuk menemukan metode terbaik untuk memecahkan masalah fraud, terutama dalam penggunaan kartu kredit sehari-hari. Karena berdasarkan data di dunia nyata, jumlah transaksi fraud sangat kecil dibandingkan dengan yang sah, karena itu resampling method terbaik perlu diteliti untuk memberikan data training yang baik untuk model klasifikasi. Penelitian ini menggunakan tiga metode pengambilan sampel yaitu Random Under Sampling, Random Over Sampling, dan Synthetic Minority Oversampling Technique untuk menyeimbangkan data fraud. Kemudian tiga metode klasifikasi, Support Vector Machine, Decision Tree, dan Gaussian Naive Bayes, digunakan untuk mengklasifikasikan setiap data training yang telah dijadikan sampel. Hasil penelitian ini menunjukkan bahwa penggunaan metode sampling memang mempengaruhi kinerja classifier dalam mengklasifikasikan data. Hal ini ditunjukkan bahwa menggabungkan SMOTE untuk menyeimbangkan data dan menggunakan algoritma Decision Tree memberikan hasil terbaik dibandingkan kombinasi lainnya dengan skor recall 0,99745, precision 0.99695, F-measure 0.9972, dan skor AUC 0.993.

In the new era where digital transformation has become common in the industrial sector. Digital transformation provides the industry with unparalleled opportunities for value creation. Digital transformation has swept across the industrial sector. As the industry adopts immersive new technologies, they also encounter new fraud risks. Fraud is a wrongful or criminal deception intended to result in financial or personal gain. With the help of advanced technology, criminals develop a new mechanism to commit fraud. This research aims to find the best method for solving fraud problems, especially in the daily usage of credit cards. Since, in real world data, the number of fraudulent transactions is very small compared to legitimate ones, the best balancing method needs to be researched to provide good training data for the classification model.This research uses three sampling methods, Random Under Sampling, Random Over Sampling, and Synthetic Minority Oversampling Technique to balance the fraud data. Then three classification methods, Support Vector Machine, Decision Tree, and Gaussian Naive Bayes, are used to classify each training data that has been sampled. The results of this study indicate that the use of sampling methods indeed influences the performance of the classifier in classifying the data. It is shown that combining SMOTE to balance data and using the Decision Tree algorithm is the best result compared to other combinations with the scores of recall 0.99745, precision 0.99695, F-measure 0.99720, and the AUC scores 0.993.

Kata Kunci : Fraud Detection, Supervised Learning, Resampling Method

LAYANAN

E-Resources

Quick Access