Laporkan Masalah

Pengembangan Model Explainable Machine Learning Dengan Shap Feature Selection Dan Hybrid Sampling Untuk Pre-Screening Anemia Multikelas

Endra Permana, Afiahayati, S.Kom., M.Cs., Ph.D. ;Dr. Sri Mulyana, M.Kom.

2025 | Tesis | MAGISTER KECERDASAN ARTIFISIAL

Proses diferensiasi klinis pada terduga pengidap anemia hemoglobinopati Beta Thalassemia Trait (BTT) dan Hemoglobin E (HbE) dengan Iron Deficiency Anemia (IDA) serta campurannya penting untuk dilakukan, dikarenakan pendekatan penanganan klinis dan konseling genetik untuk setiap jenisnya yang berbeda. Prosedur ini umumnya dilakukan dengan meninjau parameter eritrosit secara manual untuk satu per satu terduga pengidap, yang jika dilakukan dengan sumber daya medis terbatas pada sejumlah besar pasien, dapat menjadi tidak efisien dan memakan banyak waktu. Untuk mengatasinya, beragam penelitian telah memanfaatkan teknologi Explainable AI. Namun, penerapan teknologi ini di Indonesia masih terbatas, terutama dalam penggunaan data primer pasien dengan karakteristik demografi lokal. Selain itu, data primer medis yang tersedia sering kali memiliki keterbatasan, seperti jumlah data yang kecil dan distribusi kelas yang tidak seimbang, seperti yang digunakan di penelitian ini. Untuk mengatasi permasalahan tersebut, dikembangkan sebuah model klasifikasi untuk melakukan pre-screening anemia berbasis Machine Learning Explainable Artificial Intelligence (ML-XAI). Mengintegrasikan metode data agnostic hybrid sampling SMOTE-TOMEK, dan SMOTE-ENN untuk menangani ketidakseimbangan data, serta penggunaan seleksi fitur berbasis nilai SHAP feature importance untuk mengoptimalkan performa model. Model ini dikembangkan untuk dapat mengklasifikasikan empat jenis anemia, dan dapat memvisualisasikan hasil prediksi yang dapat dipahami secara interpretasi medis bagi pengguna akhir (end user) berbasis XAI untuk dapat dianalisa secara klinis. Model ini dilatih menggunakan dataset dengan 19 fitur Complete Blood Count (CBC) yang diekstraksi dari perangkat Advia dan Sysmex hematology analyzers. Dari hasil pengembangan model, didapatkan performa pengujian sebesar 88% pada metrik recall kelas anemia Beta Thalassemia Trait, 65% pada anemia Iron Deficiency, 100% pada anemia Hemoglobin E, dan 43% pada anemia Campuran, serta untuk hasil recall keseluruhan kelas, didapatkan nilai pengujian 74%, lalu precision 65%, f1-score 67%, accuracy 73%, dan AUC 85%.

The clinical differentiation process among suspected cases of hemoglobinopathy anemia specifically Beta Thalassemia Trait (BTT), Hemoglobin E (HbE), Iron Deficiency Anemia (IDA), and their mixed forms is crucial due to the distinct approaches required for clinical management and genetic counseling for each type. This procedure is typically performed by manually reviewing erythrocyte parameters for each suspected individual. However, when faced with a large number of patients and limited medical resources, this approach can become inefficient and time-consuming. To address this challenge, various studies have utilized Explainable Artificial Intelligence (XAI) technologies. Nevertheless, the application of such technologies in Indonesia remains limited, particularly in the context of using primary patient data with local demographic characteristics. Additionally, available medical datasets often suffer from limitations such as small sample sizes and imbalanced class distributions, as is the case in this study. To overcome these limitations, a Machine Learning-based Explainable Artificial Intelligence (ML-XAI) classification model was developed to perform anemia pre-screening. This model integrates data-agnostic hybrid sampling methods SMOTE-TOMEK and SMOTE-ENN to address data imbalance, and employs SHAP feature importance-based feature selection to optimize model performance. The model is designed to classify four types of anemia and visualize prediction results in a medically interpretable manner for clinical analysis by end-users through XAI techniques. The model was trained on a dataset containing 19 Complete Blood Count (CBC) features extracted from Advia and Sysmex hematology analyzers. The evaluation of the developed model yielded a recall of 88% for Beta Thalassemia Trait, 65% for Iron Deficiency Anemia, 100% for Hemoglobin E, and 43% for the mixed anemia class. The overall performance across all classes achieved a recall of 74%, precision of 65%, f1-score of 67%, accuracy of 73%, and an AUC of 85%.

Kata Kunci : Anemia, Artificial Intelligence, Explainable AI, Machine Learning, Oversampling, Pre-screening Anemia.

  1. S2-2025-525821-abstract.pdf  
  2. S2-2025-525821-bibliography.pdf  
  3. S2-2025-525821-tableofcontent.pdf  
  4. S2-2025-525821-title.pdf