Laporkan Masalah

IMPLEMENTASI METODE OVERSAMPLING ADAPTIVE SYNTHETIC-NOMINAL (ADASYN-N) DAN ADAPTIVE SYNTHETIC-KNN (ADASYN-KNN) UNTUK DATA DENGAN FITUR NOMINAL MULTI KATEGORI

SRI RAHAYU, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D. ; Noor Akhmad Setiawan, S.T., M.T., Ph.D.

2018 | Tesis | S2 Teknik Elektro

Ketidakseimbangan kelas pada penelitian bidang data mining cukup merugikan karena terdapat kesulitan dalam mengklasifikasikan kelas minoritas (jumlah instance yang kecil) dengan benar. Undersampling merupakan metode untuk menyeimbangkan kelas dengan cara mengurangi instance pada kelas mayoritas secara acak, sedangkan oversampling merupakan metode penyeimbangan distribusi kelas dengan mereplikasi instance pada kelas minoritas secara acak. Belum banyak penelitian yang dapat menangani ketidakseimbangan kelas untuk data dengan fitur nominal multi kategori. Penelitian ini menyajikan perbandingan teknik oversampling untuk mengatasi masalah ketidakseimbangan (imbalanced) kelas antara metode Adaptive Synthetic-Nominal (ADASYN-N) dengan Adaptive Synthetic-KNN (ADASYN-KNN) yang diubah penghitungan nearest neighbor-nya agar dapat diterapkan pada dataset dengan fitur nominal multi kategori. Selain itu, kedua metode masing-masing diberikan 2 parameter nearest neighbor yang berbeda. Terdapat 6 dataset dengan fitur nominal multi kategori yang memiliki distribusi kelas yang tidak seimbang yang dipilih dalam penelitian ini. Masing-masing dataset hasil oversampling dari kedua metode tersebut selanjutnya diklasifikasi dengan metode Random Forest. Hasil pengujian menunjukkan metode ADASYN-N dan ADASYN-KNN meningkatkan nilai rata-rata akurasi pada semua dataset yang diuji, terutama pada dataset kecil seperti Audiology dan Lenses yang akurasinya meningkat 10,19% dan 13,31% dari dataset asli dengan metode ADASYN-KNN serta meningkat 21,34% dan 17,71% dengan metode ADASYN-N. Sedangkan nilai G-mean, F-score, dan ROC area metode ADASYN-N dan metode ADASYN-KNN memberikan nilai yang bervariasi dikarenakan dataset yang diuji dalam penelitian ini memiliki jumlah instances dan distribusi kelas yang berbeda.

The class imbalance in the data mining field research is quite detrimental because there is difficulty in classifying minority classes correctly. Undersampling is a method of balancing a class by subtracting instances of the majority class at random, and oversampling is a method of balancing class distributions by replicating instances of minority classes at random. Not much research can deal with class imbalances for data with multi-categories nominal features. This study presents a comparison of oversampling techniques to overcome the class imbalanced problem between Adaptive Synthetic-Nominal (ADASYN-N) and Adaptive Synthetic-KNN (ADASYN-KNN) methods that alters the nearest neighbor count to be applied to a dataset with multi categories nominal features. Each methods are given 2 different k-neasrest neighbour parameters. There are 6 datasets with multi categories nominal features that have an imbalanced class distribution selected in this study. Each oversampling result dataset from both methods is further classified by the Random Forest method. The test results indicate the method of N-ADASYN and ADASYN-KNN increase average value accuracy on all datasets that are tested, especially on small datasets such as Audiology and Lenses that fit is increased 10.19% and 13.31% of the original dataset methods ADASYN-KNN as well as increased 17.71 per cent and 21.34% ADASYN-N method. While the value of G-mean, F-score, and ROC area of ADASYN-N and ADASYN-KNN method provide value that varies because the datasets tested in this study had various number of instances and class distribution.

Kata Kunci : ADASYN-KNN, ADASYN-N, ketidakseimbangan kelas, nominal, multi kategori, oversampling


    Tidak tersedia file untuk ditampilkan ke publik.