Laporkan Masalah

Penyetelan Hyperparameter Extreme Gradient Boosting Menggunakan Bayesian Optimization untuk Klasifikasi Credit Scoring

ARUM SEKAR MURDAYA, Dr. Abdurakhman, S.Si., M.Si.

2022 | Skripsi | S1 STATISTIKA

Latar Belakang Credit scoring (penilaian kredit) merupakan suatu sistem yang diterapkan oleh suatu lembaga pembiayaan atau bank untuk menilai kelayakan peminjam atau debitur yang mengajukan pinjaman. Tujuannya adalah untuk mengantisipasi kredit macet yang ditimbulkan oleh kelalaian debitur dan untuk memilih debitur yang berpotensi untuk lancar dalam pelunasan pinjaman, sehingga lembaga pembiayaan atau bank dapat terhindar dari risiko kerugian. Pada dekade terakhir, pendekatan metode ensemble banyak diimplementasikan dalam model klasifikasi credit scoring dengan tujuan untuk meningkatkan akurasi model. Salah satunya adalah algoritma extreme gradient boosting (XGB) yang selain dapat meningkatkan akurasi model, juga mampu untuk mengatasi ketidakseimbangan data. Algoritma XGB memiliki hyperparameter yang banyak dan berpengaruh pada pembangunan modelnya. Oleh karenanya pada penelitian ini, diajukan sebuah metode untuk model klasifikasi credit scoring berbasis algoritma XGB dengan penyetelan hyperparameter menggunakan Bayesian optimization (XGB-BO). Metode Pemodelan memiliki dua tahapan utama. Pertama, dilakukan data pre-processing berupa penanganan data hilang, encoding, dan pembobotan lebih pada kelas minoritas untuk mengatasi ketidakseimbangan data. Kedua, penyetelan hyperparameter menggunakan Bayesian optimization diaplikasikan pada algoritma XGB. Model kemudian dievaluasi menggunakan tiga dataset credit scoring publik yaitu dataset HMEQ, Taiwan, dan Credit Risk. Beberapa metode penyetelan lain yaitu default, grid search, dan random search digunakan sebagai pembanding untuk mengetahui metode mana yang memiliki performa lebih baik. Hasil Penyetelan hyperparameter XGB menggunakan Bayesian optimization pada dataset HMEQ dan Taiwan menunjukkan performa akurasi, sensitivitas, spesifisitas, presisi, dan skor F1 yang lebih baik dibandingkan teknik grid search, random search, maupun penyetelan default. Pada dataset Credit Risk model XGB-BO mengalami penurunan sensitivitas sebesar 1% jika dibandingkan dengan model default, namun untuk keempat ukuran evaluasi lainnya menunjukkan nilai yang lebih unggul dibandingkan teknik grid search, random search, maupun penyetelan default. Waktu komputasi Bayesian optimization lebih cepat dari grid search, tapi lebih lambat 0,8 menit dari random search. Kesimpulan Model klasifikasi credit scoring dengan algoritma XGB-BO menggunakan dataset credit scoring pada skripsi ini menunjukkan kinerja yang lebih baik dibandingkan teknik grid search, random search, maupun penyetelan default.

Background Credit scoring is a system applied by a financial institution or bank to assess the eligibility of a borrower or debtor applying for loans. The purpose of this scoring is to anticipate bad loans caused by debtor negligence and to select debtors who have the potential to repay loans successfully. Thus, financial institutions or banks can avoid the risk of loss. In the last decade, the ensemble method has been widely implemented in credit scoring modeling to improve the accuracy of the assessment. One of them is the extreme gradient boosting (XGB) algorithm which in addition to increasing model accuracy, is also able to overcome imbalanced data. XGB algorithm has many hyperparameters that are crucial to constructing its models. This study proposed for credit scoring classification model based on the XGB algorithm with hyperparameter tuning using Bayesian optimization (XGB-BO). Methods The model mainly comprises two steps. First, data pre-processing is employed to handle missing values, encoding, and handle imbalanced data with weighting more on the minority class. Second, Bayesian optimization is applied to tune the hyperparameter of the XGB classifier. The model is evaluated using three public credit scoring data, that are HMEQ, Taiwan, and Credit Risk datasets. Several other hyperparameter tuning methods, namely default, grid search, and random search are used as comparisons to find out which method has better performance. Results Hyperparameter tuning in XGB using Bayesian optimization on HMEQ and Taiwan datasets showed better accuracy, sensitivity, specificity, precision, and F1 score performance than grid search, random search, and default tuning. In the Credit Risk dataset, the XGB-BO model experienced a 1% decrease in sensitivity when compared to the default model, but the other four evaluation measures showed higher values than grid search, random search, and default tuning. Bayesian optimization computation time is faster than grid search, but 0.8 minutes slower than random search. Conclusions Credit scoring modeling with XGB-BO algorithm using credit scoring data in this thesis shows better performance than grid search, random search, and default techniques.

Kata Kunci : Bayesian optimization, credit scoring, extreme gradient boosting, hyperparameter, XGB.

  1. S1-2022-424282-abstract .pdf  
  2. S1-2022-424282-bibliography.pdf  
  3. S1-2022-424282-tableofcontent.pdf  
  4. S1-2022-424282-title.pdf