IMPLEMENTASI SYNTHETIC MINORITY OVERSAMPLING TECHNIQUE (SMOTE) UNTUK KLASIFIKASI DATA TIDAK SEIMBANG
I DEWA GEDE NATIH B, Vemmie Nastiti Lestari, S.Si., M.Sc.
2020 | Skripsi | S1 STATISTIKAAnalisis klasifikasi merupakan salah satu metode supervised learning yang dapat digunakan untuk memprediksi label dari suatu data berdasarkan data latih yang diberikan. Dalam klasifikasi seringkali dijumpai data yang tidak seimbang, yaitu salah satu label memiliki jumlah yang jauh lebih banyak dari label yang lain. Hal ini dapat menimbulkan masalah yaitu kurangnya kemampuan model untuk memprediksi data yang berasal dari label yang sedikit tersebut (kelas minoritas), sehingga walaupun akurasi yang dihasilkan tinggi namun sebagian besar prediksi tepat hanya berasal dari kelas mayoritas saja. Metode SMOTE dapat diterapkan untuk mengatasi permasalahan tersebut, di mana dengan metode ini dibuat instance sintetis yang berasal dari kelas minoritas sehingga menghasilkan data yang lebih seimbang. Pada skripsi ini dilakukan analisis pada data Bank Marketing dengan menggunakan model klasifikasi Naive Bayes dan Random Forest yang dikombinasikan dengan metode SMOTE serta menggunakan rasio yang berbeda-beda. Dari analisis yang dilakukan diperoleh kesimpulan bahwa metode Naive Bayes pada data SMOTE1.0 menghasilkan performa yang paling baik, terutama dilihat dari akurasi kelas positif.
Classification analysis is one of the supervised learning methods that can be used to predict the label of a data based on the training data provided. In classification, it is often found imbalanced data, that is, one label has far more amount than the other label. This can cause the lack of the ability of the model to predict data from the fewer label (minority class), so that even though the accuracy produced is high, most of the correct predictions only come from the majority class. The SMOTE method can be applied to overcome these problems, where from this method synthetic instances are made that come from minority class to produce more balanced data. This undergraduate thesis analyzes the Bank Marketing data using the Naive Bayes and Random Forest classification models combined with the SMOTE method and using different ratios. From the analysis conducted it was concluded that the Naive Bayes method on SMOTE1.0 data produced the best performance, especially viewed from the accuracy of the positive class.
Kata Kunci : klasifikasi, data tidak seimbang, SMOTE, Naive Bayes, Random Forest