Laporkan Masalah

Komparasi Efektivitas Supervised Learning (Random Forest & U-Net) Dengan Semi-Supervised Learning Berbasis Pseudo-Labeling Untuk Pemetaan Penggunaan Lahan

Diniyarti, Projo Danoedoro, M.Sc., Ph.D. ; Dr. Iswari Nur Hidayati, M.Sc.

2026 | Tesis | S2 Penginderaan Jauh

Pemetaan penggunaan lahan berbasis penginderaan jauh masih menghadapi keterbatasan data berlabel yang dibutuhkan oleh metode supervised learning. Penelitian ini mengevaluasi efektivitas semi-supervised learning (SSL) dengan teknik pseudo-labeling untuk memanfaatkan data tak berlabel serta pengaruh variasi input data spasial terhadap kinerja klasifikasi penggunaan lahan. Data yang digunakan meliputi citra Sentinel-2 MSI Level-2A dan Copernicus DEM GLO-30 dengan tiga skenario input: (1) data spektral, (2) data spektral dan transformasi indeks, dan (3) kombinasi data spektral, transformasi indeks, dan atribut medan. Model yang dibandingkan adalah Random Forest (RF), U-Net, dan SSL. Dataset dibangun menggunakan Object-Based Image Analysis (OBIA) dan synthetic dataset untuk meningkatkan efisiensi dan mengurangi human error. Hasil menunjukkan adanya trade-off antara akurasi global dan kualitas segmentasi spasial. RF menghasilkan Overall Accuracy tertinggi pada seluruh skenario (81,23%–89,08%), namun memiliki nilai mean Intersection over Union (mIoU) terendah (49,39%–59,01%) akibat efek salt-and-pepper dari pendekatan berbasis piksel independen. Sebaliknya, SSL menunjukkan kualitas segmentasi terbaik dengan mIoU tertinggi (55,86%–67,02%) dan keseimbangan precision–recall yang lebih baik melalui pemanfaatan data tak berlabel. U-Net menunjukkan performa seimbang di antara keduanya. Analisis distribusi luas penggunaan lahan menunjukkan bahwa secara visual pola sebaran kelas pada setiap skenario dan model cenderung sama, namun analisis kuantitatif mengungkap perbedaan estimasi luas yang cukup signifikan antara model. RF cenderung menghasilkan estimasi ekstrem dengan over-estimation pada kelas vegetasi heterogen dan under-estimation pada kelas dengan variabilitas spektral tinggi seperti sawah dengan fase taman yang berbeda, sementara model deep learning U-Net dan SSL menghasilkan distribusi luas yang lebih proporsional dan stabil. Integrasi atribut medan pada Skenario 3 berhasil mereduksi ekstremitas estimasi luas dan meningkatkan stabilitas distribusi antar model. Uji McNemar (?=0,05) memvalidasi bahwa penambahan atribut medan signifikan meningkatkan akurasi pada seluruh model, sementara penambahan indeks spektral tidak signifikan pada RF dan berdampak negatif pada deep learning. Penelitian ini menegaskan bahwa SSL dengan pseudo-labeling dan integrasi atribut medan merupakan pendekatan optimal untuk pemetaan penggunaan lahan operasional yang memerlukan akurasi segmentasi tinggi dan kemampuan generalisasi spasial yang baik.

Remote sensing–based land use mapping continues to face limitations due to the scarcity of labeled data required by supervised learning methods. This study evaluates the effectiveness of semi-supervised learning (SSL) using a pseudo-labeling technique to leverage unlabeled data, and examines the influence of variations in spatial input data on land use classification performance. The datasets employed include Sentinel-2 MSI Level-2A imagery and the Copernicus DEM GLO-30, implemented under three input scenarios: (1) spectral data only, (2) spectral data combined with spectral index transformations, and (3) a combination of spectral data, spectral index transformations, and terrain attributes. The models compared in this study are Random Forest (RF), U-Net, and an SSL. The dataset was constructed using Object-Based Image Analysis (OBIA) and synthetic datasets to improve efficiency and reduce human-induced errors. The results reveal a clear trade-off between global accuracy and spatial segmentation quality. RF achieved the highest Overall Accuracy across all scenarios (81.23%–89.08%); however, it exhibited the lowest mean Intersection over Union (mIoU) values (49.39%–59.01%), primarily due to salt-and-pepper effects inherent in independent pixel-based classification. In contrast, the SSL approach produced the best segmentation quality, achieving the highest mIoU values (55.86%–67.02%) and a more balanced precision–recall performance through the effective utilization of unlabeled data. The U-Net model demonstrated intermediate performance between RF and SSL. Land use area distribution analysis indicates that, visually, the spatial patterns of class distribution across scenarios and models appear similar; however, quantitative analysis reveals substantial differences in estimated class areas among models. RF tends to produce extreme estimations, characterized by overestimation in heterogeneous vegetation classes and underestimation in classes with high spectral variability, such as paddy fields at different growth stages. In contrast, the U-Net and SSL deep learning models generate more proportional and stable area distributions. The integration of terrain attributes in Scenario 3 successfully reduced estimation extremities and enhanced distributional stability across models. McNemar’s test (? = 0.05) confirms that the inclusion of terrain attributes significantly improves classification accuracy for all models, whereas the addition of spectral indices is not significant for RF and negatively impacts deep learning models. This study concludes that SSL with pseudo-labeling, combined with terrain attribute integration, represents an optimal approach for operational land use mapping that requires high segmentation accuracy and strong spatial generalization capability.

Kata Kunci : semi-supervised learning, pseudo-labeling, klasifikasi penggunaan lahan, Sentinel-2, U-Net, Random Forest, atribut medan, transformasi spektral

  1. S2-2026-526608-abstract.pdf  
  2. S2-2026-526608-bibliography.pdf  
  3. S2-2026-526608-tableofcontent.pdf  
  4. S2-2026-526608-title.pdf