Klasifikasi Diabetes Mellitus Tipe 2 dengan Algoritma Modified Balanced Random Forest
Salsabila Nurulfarah Mahmudah, Dr. Sri Mulyana, M.Kom. ; Dr. Sigit Priyanta, S.Si., M.Kom.
2023 | Tesis | S2 Ilmu Komputer
Diabetes mellitus menjadi salah satu penyakit yang mematikan di dunia.
Terdapat banyak penderita serta orang yang meninggal akibat diabetes mellitus,
terutama diabetes mellitus tipe 2. Dikarenakan banyak faktor penyebab diabetes
mellitus dan kondisi masyarakat Indonesia yang masih minim akan pengetahuan
diabetes mellitus memperbesar kemungkinan akan banyak masyarakat Indonesia
yang rawan terkena diabetes mellitus tipe 2. Penelitian yang sebelumnya dilakukan
mengklasifikasi diabetes atau tidak. Penelitian untuk 3 kelas lebih sulit dibanding 2
kelas saja. Dataset yang ada juga merupakan imbalanced dataset.
Untuk mengantisipasi banyaknya penderita diabetes mellitus tipe 2 dengan 3
kelas dan dengan ketersediaan imbalanced dataset perlu dilakukan penelitian yang
dapat mengklasifikasi dini penyakit diabetes mellitus tipe 2 yang dapat mengatasi
imbalanced multiclass dataset. Modified Balanced Random Forest diterapkan
dengan melakukan undersampling terlebih dahulu pada training data atau testing
data setelah itu menggunakan Random Forest. Secara lengkapnya penelitian ini
menggunakan selected features, ANOVA dan Mutual Information sebagai feature
selection, Z-score dan Min-max sebagai normalization, dua split criterion,
beberapa split training dan testing dataset ratio, menerapkan algoritma Modified
Balanced Random Forest, dan beberapa metode evaluasi hasil. Model juga
diterapkan pada beberapa rasio severe class imbalance. Feature selection dan
handling imbalanced dataset digunakan untuk optimasi proses klasifikasi.
Berdasarkan hasil percobaan, diperoleh bahwa penelitian ini mendapatkan
akurasi sebesar 86,1% pada original dataset dan sebesar 99,2% pada imbalanced
dataset dengan kelas minoritas sebesar 1,6?ngan menggunakan ANOVA, zscore normalization, split criterion menggunakan gini, dan random training data.
Diabetes mellitus is a serious disease that has caused numerous deaths
worldwide. There are many factors that can cause diabetes mellitus and the lack of
knowledge about it among the Indonesia population increase the possibility of type
2 diabetes mellitus. The previous research predicts diabetes or not. Research for 3
classes is more difficult than just 2 classes. The existing dataset is also an
imbalanced dataset.
To anticipate the large number of people with type 2 diabetes mellitus with three
classes and with the availability of an imbalanced dataset, it is necessary to carry
out research that can classify type 2 diabetes mellitus early, which can overcome
the imbalanced multiclass dataset. Modified Balanced Random Forest was applied
using under sampling for training and testing data, then applied Random Forest.
The details of this research using selected features, ANOVA and Mutual
Information as feature selection, Z-Score and Min-Max as normalization, two split
criterions, several split ratios for training and testing dataset, Modified Balanced
Random Forest algorithm, and several evaluation methods. The model is also
applied to some severe class imbalance ratios. Feature selection and imbalanced
dataset handling are used to optimize the prediction process.
Based on the experimental results, it was found that this research obtained an
accuracy of 86,1% on the original dataset and 99.2% on the imbalanced dataset with
a minority class of 1.6% using ANOVA, z-score normalization, split criterion using
Gini, and random training data.
Kata Kunci : diabetes mellitus, modified balanced random forest, seleksi fitur, pengendalian imbalanced dataset