Laporkan Masalah

Estimasi Missing Attribute Values Dataset Hepatitis Berdasarkan Kombinasi Seleksi Fitur dan Algoritme Machine Learning

TRI ASTUTI, Hanung Adi Nugroho, S.T., M.E., Ph.D. ; Teguh Bharata Adji, S.T., M.T., M. Eng., Ph.D.

2014 | Tesis | S2 Teknik Elektro

Penyakit hepatitis merupakan penyakit hati yang disebabkan oleh virus hepatitis. Sekarang ini penyakit hepatitis merupakan permasalah kesehatan global. Hepatitis pada stadium kronis dapat memicu sirosis dan kanker hati sehingga perlu dilakukan diagnosis sedini mungkin. Proses diagnosis penyakit hepatitis sekarang ini telah dilakukan melalui computer aided dengan memanfaatkan dataset hepatitis. Repositori University California Irvine (UCI) merupakan penyedia dataset penyakit hepatitis yang dapat diakses secara umum akan tetapi dataset tersebut banyak mengandung missing value. Keberadaan missing value dalam dataset dapat mempengaruhi kualitas hasil analisis sehingga perlu dilakukan penanganan. Imputasi berbasis machine learning merupakan salah satu metode penanganan missing values dengan mengestimasi nilainya. Tujuan penelitian ini adalah mengembangkan metode imputasi missing values berdasarkan pengacakan dengan mengkombinasikan metode seleksi fitur dan algoritme machine learning pada dataset hepatitis. Seleksi fitur correlation based features selection (CFS) bekerja dengan memilih fitur yang tidak saling berkorelasi antar fitur dan memiliki korelasi yang tinggi dengan class. Metode seleksi fitur Principal Component Analysis (PCA) memiliki kemampuan mengekstraksi variabel original menjadi sejumlah komponen baru yang yang saling independen dan cara kerja naive bayes menganggap semua fitur saling independen dalam dataset. Kombinasi naive bayes dengan seleksi fitur CFS atau PCA menjadikan kombinasi ini baik untuk penanganan missing values dengan kecepatan yang baik. Hasil menunjukan kombinasi CFS dan naive bayes memberikan performa paling baik untuk dataset hepatitis dengan akurasi sebesar 81,24%. Penelitian ini diharapkan dapat dimanfaatkan oleh para praktisi dengan menyedikan dataset hepatitis terimputasi yang dapat dimanfaatkan dalam proses diagnosis penyakit hepatitis berbantuan komputer.

Hepatitis is a liver disease which caused by a hepatitis virus. Nowdays hepatitis is a global health problems, including in Indonesia. Chronic hepatitis can lead to cirrhosis and liver cancer, therefore early diagnosis is needed. The diagnosis process of hepatitis disease are done through computer aided method using hepatitis dataset nowdays. University California Irvine (UCI) machine learning repository has been providing hepatitis disease dataset which can be accessed to public but the dataset contains many missing values. The existing of missing values in the dataset may affect the quality of the analysis results, therefore it needs to be conducted for handling the missing values. Imputation method based on machine learning is one of the methods to handle the missing value. The aims of this research is to develop the imputation methods of missing value by combining the feature selection method and machine learning algorithm based on randomisation on hepatitis dataset. Correlation based features selection (CFS) determines the features which have high correlation to class and low correlation between features. The principal component analysis (PCA) for feature selection is used to extract new components from the original variables that represents independence of each feature. Combination of PCA, CFS and naive bayes are good to handle the missing values. Result shows that the imputation method based on feature selection using CFS and naive bayes algorithm achives 81.24% accuracy for hepatitis dataset. It is expected that the developed method can contribute for helping the clinicans and practicians by providing imputed hepatitis dataset in diagnosing the hepatitis disease.

Kata Kunci : Hepatitis, missing values, imputasi, PCA, CFS, rough set, MLP, decision tree, naive bayes


    Tidak tersedia file untuk ditampilkan ke publik.