KAJIAN PENGGUNAAN SAM (SEGMENT ANYTHING MODEL) UNTUK EKSTRAKSI OTOMATIS TAPAK BANGUNAN PADA ORTOFOTO
Annisa Baroroh, Prof. Dr. Ir. Harintaka, S.T., M.T., IPU., ASEAN Eng.
2024 | Tesis | S2 Teknik Geomatika
Tapak bangunan mendefinisikan objek bangunan di permukaan bumi yang identik dengan kawasan permukiman. Ekstraksi tapak bangunan dapat diperoleh dari data ortofoto hasil pemotretan fotogrametri UAV. Teknologi UAV dinilai lebih unggul dengan biaya yang lebih murah dan dapat menghasilkan data resolusi tinggi. Pada umumnya, ekstraksi tapak bangunan dari data ortofoto dilakukan menggunakan metode konvensional yaitu digitasi manual. Namun, digitasi manual memiliki kelemahan dari segi waktu dan tenaga. Teknik otomatisasi yang berkembang saat ini menggunakan konsep pembelajaran terkomputerisasi yang dikenal dengan metode pembelajaran mendalam (deep learning). Segment Anything Model (SAM) merupakan salah satu model deep learning terbaru yang digunakan untuk melakukan ekstraksi objek. Tim Meta AI mengembangkan SAM yang telah dilatih pada dataset besar (SA-1B) sehingga mampu melakukan segmentasi objek secara cepat dan tepat tanpa pelatihan ulang. Penelitian ini bertujuan untuk mengkaji dan mengevaluasi kinerja SAM dalam melakukan ekstraksi tapak bangunan secara otomatis pada data ortofoto.
Penelitian ini dilakukan di wilayah Kota Dumai dengan tiga jenis area permukiman yang bervariasi berdasarkan kerapatan bangunan yang terdiri atas kerapatan bangunan tinggi (AOI-1), rendah (AOI-2), dan teratur (AOI-3). Keseluruhan pengolahan dilakukan menggunakan perangkat lunak ArcGIS Pro yang sekaligus menyediakan paket deep learning SAM. Proses ekstraksi otomatis untuk mendapatkan tapak bangunan memerlukan data masukan berupa raster ortofoto dan model deep learning SAM yang parameternya sudah disesuaikan. Hasil ekstraksi tapak bangunan pada umumnya menghasilkan garis poligon tapak bangunan yang tidak teratur sehingga diperlukan proses regularisasi. Terakhir, dilakukan proses evaluasi hasil ekstraksi tapak bangunan yang dinilai dari segi visual dan perhitungan uji akurasi. Perhitungan uji akurasi dilakukan dengan beberapa cara yaitu f1-score (rata-rata nilai precision dan recall) dan indeks IoU (Intersection over Union).
Hasil ekstraksi tapak bangunan dengan SAM baik pada kondisi bangunan dengan kerapatan sedang dan rendah. Hasil yang kurang baik dikarenakan kompleksitas warna bangunan dan terhalang oleh objek lain seperti vegetasi. Hasil ekstraksi tapak bangunan di semua AOI menunjukkan nilai f1-score berada pada rentang 94%-95%, sedangkan indeks IoU berada pada rentang 88%-90%. Selain itu, tapak bangunan yang telah diregularisasi menunjukkan penurunan dengan rata-rata nilai penurunan akurasi f1-score sebesar 1,26?n IoU sebesar 2,26%. Hal tersebut disebabkan karena perbedaan luasan poligon akibat perubahan bentuk poligon tapak bangunan dari garis tidak teratur (bergelombang) menjadi garis lurus dan tegas. Berdasarkan hasil yang diperoleh, SAM menunjukkan hasil yang baik dalam melakukan ekstraksi tapak bangunan secara otomatis. Kemampuan SAM yang luar biasa dalam mengekstraksi objek menjadikan model sangat fleksibel untuk digunakan di berbagai aplikasi penginderaan jauh lainnya.
Building footprint defines building objects on the earth's surface that are identical to residential areas. Building footprint extraction can be obtained from orthophoto data generated through UAV photogrammetry. It is considered that UAV technology is superior, particularly in terms of reduced cost and the ability to produce high-resolution data. In general, building footprint extraction from orthophoto data has been performed using conventional methods, such as manual digitization. However, manual digitization has limitations in terms of time and labor. The latest automation techniques employ the concept of computerized learning, known as deep learning methods. The Segment Anything Model (SAM) is one of the most recent deep learning models used for object extraction. Developed by the Meta AI team, SAM has been trained on a large dataset (SA-1B), enabling it to perform object segmentation quickly and accurately without requiring retraining. This study aims to analyze and evaluate the performance of the SAM algorithm in automatically extracting building footprints from orthophoto data.
This research was conducted in the Dumai City area with three types of residential areas based on building density, consisting of high building density (AOI-1), low building density (AOI-2), and structured building density (AOI-3). The entire process was conducted using the ArcGIS Pro software, which also provided the SAM deep learning package. The automatic extraction process to obtain building footprints requires input data in the form of raster orthophotos and a deep learning SAM model whose parameters have been adjusted. The extracted building footprints generally produced irregular polygon edges, necessitating a regularization process. Finally, the extracted building footprints were evaluated both visually and through accuracy assessment. The accuracy assessment involved metrics such as the f1-score (the harmonic mean of precision and recall) and the IoU (Intersection over Union) index.
The building footprint extraction results using SAM performed well in areas with medium and low building density. The less satisfactory results are due to the complexity of building colors and obstruction by other objects such as vegetation. The extraction results across all AOIs showed that the f1-score ranged from 94% to 95% while the IoU index ranged from 88% to 90%. Furthermore, the regularized building footprint demonstrates a reduction, with an average decline of 1.26% in f1-score accuracy and 2.26% in IoU. This decrease was caused by polygon area differences due to the transformation of irregular (wavy) polygon boundaries into straight and sharp lines. Based on these results, SAM demonstrated strong performance in automatically extracting building footprints. The excellent extraction capabilities of SAM make the model very flexible for use in various other remote sensing applications.
Kata Kunci : deep learning, segment anything, ortofoto, tapak bangunan, regularisasi