Regresi Buckley-James dengan Boosting untuk Data Tersensor Kanan
MUHAMMAD RIZKI RAMADHAN, Drs. Danardono, M.P.H.,Ph.D.
2021 | Skripsi | S1 STATISTIKAEkspresi gen yang diperoleh dari hasil DNA microarray menghasilkan jumlah yang sangat banyak. Untuk melihat ekspresi gen mana yang mempengaruhi penyakit suatu pasien menjadi kesulitan tersendiri. Metode Boosting telah banyak digunakan pada klasifikasi dan juga regresi untuk memilih variabel independen dalam pembentukan suatu model. Kesulitan bertambah jika pada data tersebut mengandung data yang tersensor. Salah satu metode yang sering digunakan untuk menangani data yang tersensor adalah regresi Cox atau yang biasa dikenal dengan Cox's proportional hazard model yang diperkenalkan oleh Cox (1972). Regresi Cox tersebut membutuhkan asumsi hazard proporsional dimana semua individu dianggap memiliki satu nilai baseline hazard yang sama lalu kemudian nilai dari baseline hazard tersebut berubah sesuai dengan karakteristik pada masing - masing individu. Jika asumsi tersebut sulit untuk terpenuhi, regresi Buckley-James dapat menjadi salah satu alternatif untuk mengestimasi nilai variabel dependen yang mengandung data tersensor. Regresi Buckley-James dengan metode Boosting dapat digunakan untuk mengatasi permasalahan data tersensor dengan jumlah variabel independen sangat banyak dimana pada studi kasus ini bertujuan untuk memprediksi tingkat survival dari seorang pasien penderita kanker limfoma yang telah menjalani kemoterapi dengan melihat ekspresi gen hasil DNA microarray. Dari hasil analisis diperoleh Regresi Buckley-James dengan metode L2 boosting menghasilkan 26 ekspresi gen terpilih, sedangkan untuk twin boosting menghasilkan 10 ekspresi gen terpilih.
Gene expression obtained from the DNA microarray yields a very large number. Which gene expression influences a patient's disease becomes a difficulty. Boosting has been widely used in classification and regression to select independent variables in the modelling. The difficulty increase if the data contains censored data. One method that is often used to handle censored data is Cox regression or commonly known as Cox's proportional hazard where all individuals are deemed to have the same baseline hazard value then changes according to the characteristics of each individual. If these assumption are difficult to fulfill, the Buckley-James regression can be an alternatives to estimate the value of the dependent variable containing censored data. Buckley-James regression with the Boosting method can be used to overcome the problem of censored data with a large number of independents variables which in this case study aims to predict the survival rate of a patient with lymphoma cancer who has undergone chemotherapy by lookin at the expression of the resulting gene DNA microarray. From the analysis, it was obtained that the Buckley-James regression using the L2 boosting resulted in in 26 selected gene expression, while the twin boosting method resulted in 10 selected gene expressions.
Kata Kunci : Survival, data tersensor, Buckley-James estimator, boosting, seleksi variabel