KLASIFIKASI DATA MICROARRAY MENGGUNAKAN DISCRETE WAVELET TRANSFORM DAN EXTREME LEARNING MACHINE
KHADIJAH, Dra. Sri Hartati, M.Sc., Ph.D.
2014 | Tesis | S2 Ilmu KomputerKlasifikasi jenis kanker dapat dilakukan berdasarkan struktur morfologis maupun nilai ekspresi gen yang terdapat dalam data microarray. Klasifikasi jenis kanker berdasarkan struktur morfologis mengalami kesulitan karena perbedaan struktur morfologis yang tipis antar jenis kanker yang berbeda, sehingga pada penelitian ini dilakukan klasifikasi jenis kanker berdasarkan nilai ekspresi gen dalam data microarray. Permasalahan penting dalam klasifikasi data microarray adalah jumlah gen yang sangat banyak sebagai dimensi data microarray (high dimensional) dan jumlah sampel yang terbatas, sehingga harus diperhatikan metode untuk reduksi dimensi serta classifier yang digunakan. Penelitian ini bertujuan untuk membangun pengklasifikasi data microarray. Proses klasifikasi diawali dengan reduksi dimensi data microarray dengan DWT, yaitu mendekomposisi sampel hingga level tertentu, kemudian mengambil nilai koefisien aproksimasi pada level tersebut sebagai fitur sampel untuk masukan ke tahap klasifikasi. Metode klasifikasi yang digunakan adalah ELM yang diterapkan pada RBFN. Dataset yang digunakan dalam penelitian ini adalah data microarray multikelas, yaitu dataset GCM (16.063 gen, 14 kelas) dan Subtypes-Leukemia (12.600 gen, 7 kelas). Pengujian dilakukan dengan cara membagi data latih dan data uji secara random sepuluh kali dengan proporsi data yang sama. Classifier yang dihasilkan dari penelitian ini untuk dataset GCM belum memiliki performa yang cukup baik, ditunjukkan dengan nilai akurasi 75,65% ± 6,86% dan nilai minimum sensitivity yang masih rendah, yaitu 20% ± 17,21% menunjukkan bahwa sensitivity untuk tiap kelas belum merata, terdapat beberapa kelas yang sensitivity-nya masih rendah. Namun, classifier untuk dataset Subtypes-Leukemia yang memiliki jumlah kelas lebih sedikit dari dataset GCM memiliki performa yang cukup baik, ditunjukkan dengan nilai akurasi 89,29% ± 2,42% dan minimum sensitivity 54,44% ± 25,5%.
Cancer can be classified based on its morphologis structure or gene expression values in microarray data. Cancer classification based on its morphologis structure is difficult because the poor distinction of morphologis structures among different classes of cancer, so in this research cancer is classified based on the gene expression value in microarray data. The important things in the microarray data classification are the huge number of genes as dimension of microarray data (high dimensionality) and the limited sample size, so the method of dimension reduction and the classifier algorithm should be well determined. The aim of this research is to bulid microarray data classifier. The classification process is started by reducing dimension of microarray data using DWT. It can be done by decomposing the samples until certain decomposition level and then use the approximation coefficients at those level as features set to the classifier. Classifier used in this research is ELM implemeted on RBFN. Dataset used in this research are GCM (16.063 genes, 14 classes) and Subtypes- Leukemia (12.600 genes, 7 classes). Testing process is done by randomly dividing the training and testing data ten times with same proprotion of training and testing data. The result achieved by classifier for GCM dataset is not quite good, mean of accuracy 75,65% ± 6,86% and minimum sensitivity 20% ± 17,21%. The low value of minimum sensitivity indicate that the sensitivity among all classes is not well averaged. The result achieved by classifier for Subtypes-Leukemia dataset with smaller number of classes, is quite better than GCM, mean of accuracy 89,29% ± 2,42% and mean of minimum sensitivity 54,44% ± 25,5%. The low value of minimum sensitivity resulted from BCR-ABL class because of the smallest sample number of that class among the other classes.
Kata Kunci : microarray, ekspresi gen, DWT, ELM, RBFN