Laporkan Masalah

Implementasi Random Over-Sampling Examples (ROSE) untuk Menangani Data Tidak Seimbang pada Analisis Klasifikasi Biner

Sindhi Mery Handayani, Drs. Danardono, MPH., Ph.D.

2023 | Skripsi | STATISTIKA

Kegagalan metode klasifikasi ketika estimasi model didasarkan pada data yang tidak seimbang merupakan permasalahan yang sering ditemui. Banyak jurnal yang menunjukkan bahwa data yang tidak seimbang sangat mengganggu proses analisis karena model akan cenderung berfokus pada kelas mayoritas dan mengabaikan kelas minoritas. Mempertimbangkan pentingnya masalah ini, banyak metode telah dikembangkan untuk mencoba mengatasi masalah ini. Random Over-Sampling Examples (ROSE) merupakan salah satu metode resampling yang dapat digunakan untuk mengatasi masalah ini. ROSE akan membangkitkan data sintetis baru yang seimbang dengan menggunakan pendekatan smoothed bootstrap. Pada skripsi ini, data Abalone diklasifikasikan dengan metode klasifikasi Naive Bayes dan Random Forest. Berdasarkan analisis yang telah dilakukan, disimpulkan bahwa penanganan data tidak seimbang dengan metode ROSE dapat meningkatkan performa klasifikasi, baik pada klasifikasi dengan metode Naive Bayes maupun Random Forest.

Failure of classification methods when the model estimation is based on an imbalanced dataset is a very well-known problem. It has been widely reported that the imbalanced dataset heavily compromises the analysis process because the model tends to focus on the majority class and ignore the minority class. Considering the importance of this issue, a large amount of method has been developed trying to address this problem. Random Over-Sampling Examples (ROSE) is one of the resampling methods that can be used to solve this problem. ROSE builds on the generation of new synthetic balanced data according to a smoothed bootstrap approach. In this thesis, the Abalone dataset is classified using the Naive Bayes and Random Forest classifier. From the analysis conducted, it was concluded that handling imbalanced data with the ROSE method can improve the classification performance, both in classification using the Naive Bayes method and the Random Forest method.

Kata Kunci : Klasifikasi, Data Tidak Seimbang, Random Over-Sampling Examples, Naive Bayes, Random Forest

  1. S1-2023-442609-abstract.pdf  
  2. S1-2023-442609-bibliography.pdf  
  3. S1-2023-442609-tableofcontent.pdf  
  4. S1-2023-442609-title.pdf