Laporkan Masalah

Implementasi Light Gradient Boosting Machine (LightGBM) Pada Analisis Klasifikasi Data Tidak Seimbang

DINA LESTARI, Dr. Drs. Gunardi, M.Si.

2024 | Skripsi | STATISTIKA

Pada analisis klasifikasi, permasalahan yang kerap muncul ialah kondisi data tidak seimbang atau imbalance data. Data tidak seimbang terjadi ketika suatu kelas data memiliki jumlah data yang berbeda dibandingkan dengan kelas lainnya. Keadaan ini berdampak pada kinerja algoritma machine learning karena model akan terfokus pada jumlah kelas yang lebih banyak atau kelas mayoritas dibandingkan dengan kelas minoritas yang dapat menyebabkan pengambilan keputusan yang bias. Penanganan dengan pendekatan algoritma yang digunakan untuk menyelesaikan permasalahan tersebut adalah ensemble learning dan modifikasinya. Light Gradient Boosting Machine (LightGBM) adalah algoritma dalam ensemble learning yang memiliki kerangka yang cepat dan efisiensi dalam komputasi. Modifikasi yang dilakukan ialah dengan menggunakan LightGBM Weighted dan LightGBM Focal Loss. Pada tugas akhir ini dilakukan analisis pada data HTRU2 dan data Default of Credit Card dengan menggunakan LightGBM dan modifikasinya, kemudian dibandingkan dengan model dasarnya yakni decision tree dan model ensemble learning yang lain yakni Gradient Boosting. Dari analisis yang dilakukan diperoleh kesimpulan bahwa LightGBM Weighted menghasilkan performa yang paling baik.

In classification analysis, a common issue is the presence of imbalanced data. Imbalanced data occurs when one class of data has a different number of samples compared to other classes. This condition affects the performance of machine learning algorithms because the model tends to focus more on the majority class rather than the minority class, which can lead to biased decision-making. The algorithmic approach used to address this issue includes ensemble learning and its modifications. Light Gradient Boosting Machine (LightGBM) is an ensemble learning algorithm known for its speed and computational efficiency. Modifications include using Weighted LightGBM and LightGBM with Focal Loss. In this case study, an analysis was conducted on HTRU2 and Default of Credit Card data using LightGBM and its modifications, and then compared with the basic model, which is the decision tree, and another ensemble learning model, Gradient Boosting. From the analysis, it was concluded that Weighted LightGBM produced the best performance.

Kata Kunci : klasifikasi, data tidak seimbang, LightGBM, focal loss

  1. S1-2024-462309-abstract.pdf  
  2. S1-2024-462309-bibliography.pdf  
  3. S1-2024-462309-tableofcontent.pdf  
  4. S1-2024-462309-title.pdf