Laporkan Masalah

PENANGANAN DATA TIDAK SEIMBANG MENGGUNAKAN SMOTE PADA KASUS KLASIFIKASI TUBERKULOSIS BERBASIS CITRA CHEST X-RAY

Muhammad Fadhlullah Kh.TQ, Wahyono, S.Kom., Ph.D.

2023 | Tesis | MAGISTER KECERDASAN ARTIFISIAL

Penelitian ini mendalami permasalahan ketidakseimbangan dataset dalam klasifikasi citra Chest X-Ray (CXR) TBX11K dengan menerapkan metode Random Forest (RF) dan XGBoost (XGB) dengan atau tanpa teknik resampling Synthetic Minority Over-sampling Technique (SMOTE). Tujuan penelitian ini adalah mengukur pengaruh SMOTE terhadap performa model dalam klasifikasi citra CXR TBX11K.

Dalam penelitian ini, teknik SMOTE diterapkan pada model klasifikasi RF dan XGB. Penggunaan SMOTE bertujuan untuk meningkatkan jumlah sampel kelas minoritas (TB positif) agar tidak terlalu senjang terhadap jumlah kelas mayoritas (TB negatif). Setiap model diukur dengan metrik evaluasi yang sama agar dapat dibandingkan, seperti akurasi, presisi, recall, dan skor F1.

Hasil penelitian menunjukkan bahwa penggunaan teknik SMOTE pada model RF dan XGB efektif dalam mengatasi ketidakseimbangan kelas pada dataset. Model RF tanpa SMOTE mencapai akurasi sekitar 93,33%, sementara model RF dengan SMOTE mencapai akurasi 92,72%. Model XGB tanpa SMOTE mencapai akurasi 94,11%, sedangkan XGB dengan SMOTE mencapai akurasi 94,33%. Meskipun SMOTE meningkatkan performa model, terdapat kendala dalam memprediksi kelas minoritas 'altb' dan 'ltb', yang sulit diatasi bahkan dengan resampling, disebabkan fitur yang kurang representatif. Dari hasil eksperimen, model XGB dengan SMOTE merupakan model yang paling optimal untuk klasifikasi citra TBX11K.

This research delves into the issue of dataset imbalance in the classification of Chest X-Ray (CXR) images in TBX11K by applying the Random Forest (RF) and XGBoost (XGB) methods with or without the Synthetic Minority Over-sampling Technique (SMOTE) resampling technique. The objective of this study is to assess the impact of SMOTE on model performance in the classification of CXR TBX11K images.

In this research, the SMOTE technique is applied to the RF and XGB classification models. The use of SMOTE aims to increase the number of minority class samples (TB positive) to mitigate the imbalance with the majority class samples (TB negative). Each model is evaluated using the same metrics for comparison, such as accuracy, precision, recall, and F1 score.

The research results indicate that the use of the SMOTE technique on RF and XGB models is effective in addressing class imbalance in the dataset. The RF model without SMOTE achieves an accuracy of approximately 93.33%, while the RF model with SMOTE achieves an accuracy of 92.72%. The XGB model without SMOTE achieves an accuracy of 94.11%, while the XGB model with SMOTE achieves an accuracy of 94.33%. Although SMOTE improves the model's performance, there are challenges in predicting minority classes 'altb' and 'ltb,' which are difficult to overcome even with resampling due to less representative features. From the experimental results, the XGB model with SMOTE is the most optimal model for classifying TBX11K images.

Kata Kunci : Tuberkulosis, Random Forest, XGBoost, Chest X-Ray, machine learning, imbalance data, SMOTE, VGG16

  1. S2-2023-500709-abstract.pdf  
  2. S2-2023-500709-bibliography.pdf  
  3. S2-2023-500709-tableofcontent.pdf  
  4. S2-2023-500709-title.pdf