Improving Feature Selection on Heart Disease Dataset With Boruta Approach
MUH ARZANUL MANHAR, Indah Soesanti, Dr., S.T., M.T.; Noor Akhmad Setiawan, S.T., M.T., Ph.D.
2020 | Tesis | MAGISTER TEKNOLOGI INFORMASICoronary Artery Disease (CAD) merupakan salah satu penyakit paling mematikan di dunia, termasuk di Indonesia. CAD terjadi karena penyempitan atau penyumbatan arteri koroner yang biasanya disebabkan oleh Aterosklerosis. Berbagai penelitian telah dilakukan dengan tujuan untuk memprediksi ciri dan karakteristik penyakit ini. Beberapa penelitian menggunakan dataset Z-Alizadeh Sani yang terdiri dari 54 atribut dengan dua hasil klasifikasi yaitu CAD dan Normal untuk mengklasifikasikan datanya. Pemilihan fitur merupakan salah satu cara untuk mengurangi jumlah atribut yang ada dengan meninggalkan atribut yang memiliki pengaruh tinggi pada dataset. Dalam penelitian ini, metode Boruta digunakan sebagai fitur seleksi untuk meminimalkan atribut dan meninggalkan atribut yang relatif tinggi dengan dataset. Dengan mengurangi atribut dalam dataset melalui proses seleksi fitur, maka 17 dan 18 atribut dipilih sebagai atribut dengan relatif tinggi dengan dataset. Atribut tersebut kemudian digunakan untuk menghitung nilai akurasi dataset dengan menggunakan beberapa metode klasifikasi dan diperoleh akurasi 90,3% dari penelitian ini.
Coronary artery disease (CAD) is one of the deadliest diseases in the entire world, including in Indonesia. CAD occurs due to narrowing or blockage of coronary arteries which is usually caused by atherosclerosis. Various studies have been conducted with the aim to predict the nature and characteristics of this disease. Some researches uses the Z-Alizadeh Sani dataset which consists of 54 attributes with two results of classification, CAD and Normal to classify its data. Feature selection is one way to reduce the number of attributes that exist by leaving the attributes that have a high effect on the dataset. In this study, the Boruta method is used as a feature selection to minimize the attributes and leave the attributes with high relative with the dataset. By reducing the attributes in the dataset through the feature selection process, sets of 17 and 18 attributes are selected as attributes with high relative with the dataset. These attributes then used to calculate the accuracy value of the dataset using the several classification methods and 90,3% accuracy is obtained from this study.
Kata Kunci : Boruta, Classification, Coronary Artery Disease, Feature Selection