Laporkan Masalah

Klasifikasi Diabetes Mellitus Tipe 2 dengan Algoritma Modified Balanced Random Forest

Salsabila Nurulfarah Mahmudah, Dr. Sri Mulyana, M.Kom. ; Dr. Sigit Priyanta, S.Si., M.Kom.

2023 | Tesis | S2 Ilmu Komputer

Diabetes mellitus menjadi salah satu penyakit yang mematikan di dunia. Terdapat banyak penderita serta orang yang meninggal akibat diabetes mellitus, terutama diabetes mellitus tipe 2. Dikarenakan banyak faktor penyebab diabetes mellitus dan kondisi masyarakat Indonesia yang masih minim akan pengetahuan diabetes mellitus memperbesar kemungkinan akan banyak masyarakat Indonesia yang rawan terkena diabetes mellitus tipe 2. Penelitian yang sebelumnya dilakukan mengklasifikasi diabetes atau tidak. Penelitian untuk 3 kelas lebih sulit dibanding 2 kelas saja. Dataset yang ada juga merupakan imbalanced dataset. Untuk mengantisipasi banyaknya penderita diabetes mellitus tipe 2 dengan 3 kelas dan dengan ketersediaan imbalanced dataset perlu dilakukan penelitian yang dapat mengklasifikasi dini penyakit diabetes mellitus tipe 2 yang dapat mengatasi imbalanced multiclass dataset. Modified Balanced Random Forest diterapkan dengan melakukan undersampling terlebih dahulu pada training data atau testing data setelah itu menggunakan Random Forest. Secara lengkapnya penelitian ini menggunakan selected features, ANOVA dan Mutual Information sebagai feature selection, Z-score dan Min-max sebagai normalization, dua split criterion, beberapa split training dan testing dataset ratio, menerapkan algoritma Modified Balanced Random Forest, dan beberapa metode evaluasi hasil. Model juga diterapkan pada beberapa rasio severe class imbalance. Feature selection dan handling imbalanced dataset digunakan untuk optimasi proses klasifikasi. Berdasarkan hasil percobaan, diperoleh bahwa penelitian ini mendapatkan akurasi sebesar 86,1% pada original dataset dan sebesar 99,2% pada imbalanced dataset dengan kelas minoritas sebesar 1,6?ngan menggunakan ANOVA, zscore normalization, split criterion menggunakan gini, dan random training data.

Diabetes mellitus is a serious disease that has caused numerous deaths worldwide. There are many factors that can cause diabetes mellitus and the lack of knowledge about it among the Indonesia population increase the possibility of type 2 diabetes mellitus. The previous research predicts diabetes or not. Research for 3 classes is more difficult than just 2 classes. The existing dataset is also an imbalanced dataset. To anticipate the large number of people with type 2 diabetes mellitus with three classes and with the availability of an imbalanced dataset, it is necessary to carry out research that can classify type 2 diabetes mellitus early, which can overcome the imbalanced multiclass dataset. Modified Balanced Random Forest was applied using under sampling for training and testing data, then applied Random Forest. The details of this research using selected features, ANOVA and Mutual Information as feature selection, Z-Score and Min-Max as normalization, two split criterions, several split ratios for training and testing dataset, Modified Balanced Random Forest algorithm, and several evaluation methods. The model is also applied to some severe class imbalance ratios. Feature selection and imbalanced dataset handling are used to optimize the prediction process. Based on the experimental results, it was found that this research obtained an accuracy of 86,1% on the original dataset and 99.2% on the imbalanced dataset with a minority class of 1.6% using ANOVA, z-score normalization, split criterion using Gini, and random training data.

Kata Kunci : diabetes mellitus, modified balanced random forest, seleksi fitur, pengendalian imbalanced dataset

  1. S2-2023-475591-abstract.pdf  
  2. S2-2023-475591-bibliography.pdf  
  3. S2-2023-475591-tableofcontent.pdf  
  4. S2-2023-475591-title.pdf