Laporkan Masalah

PREDIKSI BAND GAP MATERIAL 2D MENGGUNAKAN RANDOM FOREST DAN XGBOOST DENGAN ANALISIS INTERPRETABILITAS SHAP PADA DATASET C2DB

Iren Yolanda Sitompul, Dr. Eko Sulistya, M.Si. ; Dr.Eng. Ahmad Kusumaatmaja, S.Si., M.Sc.

2026 | Skripsi | FISIKA

Studi ini memprediksi band gap Kohn-Sham material 2D semikonduktor menggunakan pendekatan machine learning berbasis data hasil perhitungan Density Functional Theory dari Computational 2D Materials Database (C2DB). Analisis menggunakan fitur fisik global yang tersedia dalam dataset, yaitu energi total per atom, energi pembentukan, energi terhadap convex hull, ketebalan lapisan, nomor space group, dan simetri inversi. Analisis tidak melibatkan informasi struktur atom secara eksplisit. Model Random Forest dan XGBoost digunakan untuk memodelkan hubungan nonlinear antara fitur fisik global dan band gap pada rentang 0.5 sampai 3.0 eV. Random Forest menghasilkan nilai MAE sebesar 0.399 eV, RMSE 0.520 eV, dan R² sebesar 0.407. XGBoost menghasilkan MAE sebesar 0.392 eV, RMSE 0.524 eV, dan R² sebesar 0.397. Nilai ini menunjukkan bahwa kedua model mampu menjelaskan sebagian variasi band gap dalam dataset, meskipun belum sepenuhnya menangkap kompleksitas sifat elektronik material. Analisis interpretabilitas menggunakan SHAP menunjukkan bahwa energi pembentukan, energi terhadap convex hull, dan ketebalan lapisan memberi kontribusi terbesar terhadap prediksi band gap. Fitur-fitur tersebut merepresentasikan aspek kestabilan termodinamika dan karakter fisik global material 2D yang secara statistik berkorelasi dengan variasi band gap, tanpa mengklaim hubungan sebab-akibat langsung pada tingkat struktur pita elektronik. Hasil ini menunjukkan bahwa machine learning dapat digunakan sebagai alat praktis untuk analisis awal dan penyaringan material 2D semikonduktor. Pendekatan ini membantu mengidentifikasi tren global dalam data DFT dan mempersempit ruang pencarian kandidat material sebelum dilakukan perhitungan fisika komputasi lanjutan.

This study predicts the Kohn-Sham band gap of two-dimensional semiconductors using a machine learning approach based on Density Functional Theory data from the Computational 2D Materials Database. The analysis uses global physical features available in the dataset, including total energy per atom, formation energy, energy above the convex hull, material thickness, space group number, and inversion symmetry. The study does not use explicit atomic structure information. Random Forest and XGBoost models capture the nonlinear relationship between global physical features and the band gap in the range of 0.5 to 3.0 eV. The Random Forest model achieves a mean absolute error of 0.399 eV, a root mean square error of 0.520 eV, and an R² value of 0.407. The XGBoost model achieves a mean absolute error of 0.397 eV, a root mean square error of 0.524 eV, and an R² value of 0.394. These results show that both models explain part of the band gap variation in the dataset, but they do not fully capture the complexity of electronic properties. SHAP-based interpretability analysis shows that formation energy, energy above the convex hull, and material thickness contribute most to the band gap predictions. These features represent thermodynamic stability and global physical characteristics of 2D materials that statistically correlate with band gap variation, without implying a direct causal link at the level of electronic band structure. The results show that machine learning serves as a practical tool for early-stage analysis and pre-screening of 2D semiconductors. This approach helps identify global trends in DFT data and narrows the search space for candidate materials before more detailed computational studies.

Kata Kunci : 2D materials, band gap, machine learning, Random Forest, XGBoost

  1. S1-2026-481208-abstract.pdf  
  2. S1-2026-481208-bibliography.pdf  
  3. S1-2026-481208-tableofcontent.pdf  
  4. S1-2026-481208-title.pdf