Laporkan Masalah

PENANGANAN KETIDAKSEIMBANGAN KELAS MENGGUNAKAN ADAPTIVE SYNTHETIC SAMPLING APPROACH (ADASYN) UNTUK KLASIFIKASI MENGGUNAKAN METODE RANDOM FOREST

IDFI TANIYA KUSUMA, Prof. Dr.rer.nat Dedi Rosadi, S.Si., M.Sc.

2017 | Skripsi | S1 STATISTIKA

Masalah ketidakseimbangan terjadi apabila terdapat kelas yang sangat kurang terwakili dibandingkan kelas lainnya dalam suatu dataset. Ketidakseimbangan kelas akan menjadi masalah pada kasus klasifikasi, sebab algoritma klasifikasi yang bekerja pada data yang tidak seimbang akan menghasilkan prediksi yang menyesatkan dan tingkat akurasi yang buruk. Oleh karena itu muncul metode ADASYN sebagai salah satu cara dalam menyeimbangkan kelas dengan cara menghasilkan data sintetis pada kelas minoritas agar algoritma klasifikasi dapat bekerja lebih baik. ADASYN efektif bekerja pada variabel prediksi berjumlah 2 kelas (binary class) dengan tipe data variabel respon numerik. Keefektifan ADASYN akan ditunjukkan melalui implementasinya pada dataset pasien wanita diabetes. Metode ini akan dikombinasikan dengan algoritma klasifikasi Random Forest untuk mendiagnosis penyakit diabetes pasien. Hasilnya terbukti bahwa dengan menyeimbangkan kelas algoritma klasifikasi Random Forest memiliki performa yang lebih baik. Hal ini ditunjukkan dengan nilai Recall, Precision dan F-measure yang lebih tinggi daripada algoritma Random Forest yang bekerja pada data yang tidak seimbang.

The problem of imbalance occurs when there is a class that is poorly represented than the other classes in a dataset. The class imbalance will be a problem in the classification case, because classification algorithms working on unbalanced data will produce misleading predictions as well as poor accuracy. Therefore, ADASYN method appears as one way to balance the class by generating synthetic data in minority class so that the classification algorithm can work better. ADASYN effectively works on predictive variables of 2 classes (binary class) with numerical response data type variables. The effectiveness of this ADASYN method will be demonstrated through its implementation on the dataset of diabetic female patients. This method will be combined with the Random Forest classification algorithm to diagnose diabetic patients. The result proved that by balancing the class, Random Forest classification algorithm has better performance. This is indicated by the value of Recall, Precision and F-measure that higher than Random Forest algorithms working on imbalanced data.

Kata Kunci : ketidakseimbangan kelas, klasifikasi, ADASYN, binary class, Random Forest

  1. S1-2017-348055-abstract.pdf  
  2. S1-2017-348055-bibliography.pdf  
  3. S1-2017-348055-tableofcontent.pdf  
  4. S1-2017-348055-title.pdf