Segmentasi Lubang Jalan Menggunakan Arsitektur U-Net dan LSTM
Muhammad Ihsan, Prof. Drs. Agus Harjoko, M.Sc., Ph.D. ; Muhammad Alfian Amrizal, B.Eng., M.I.S., Ph.D.
2024 | Tesis | S2 Ilmu Komputer
U-Net merupakan salah satu arsitektur yang memiliki kemampuan sangat baik dalam melakukan segmentasi lubang jalan. Tantangan dalam melakukan segmentasi lubang jalan adalah data yang diproses merupakan video yang berisi kumpulan frame yang saling berkaitan, sedangkan segmentasi yang dilakukan masih berfokus pada satu frame gambar. Integrasi dengan lapisan berbasis recurrent neural network (RNN) seperti convolutional LSTM (ConvLSTM) bisa dilakukan untuk meningkatkan performa U-Net pada data-data multi-frame.
Penelitian ini menggunakan dataset yang terdiri dari 619 video lubang jalan dengan jumlah frame pada setiap video sebanyak 48 frame. Terdapat beberapa tahapan yang diterapkan, dimulai dari prapemrosesan, pembuatan model, hyperparameter tuning dan evaluasi. Prapemrosesan mencakup cropping, resizing, dan normalisa- si untuk menyeragamkan data. Pemodelan menggunakan satu model U-Net tanpa ConvLSTM dan tiga model U-Net dengan ConvLSTM yaitu integrasi pada encoder yang kemudian disebut U-Net-LSTM-Enc, integrasi pada bridge yang kemudian dise- but U-Net-LSTM-Bri serta modifikasi dari U-Net-LSTM-Bri yang kemudian disebut U-Net-LSTM-BriV2. Hyperparameter Tuning yang digunakan adalah loss function dan batch size. Evaluasi dilakukan dari sisi performa segmentasi menggunakan inter- section over union (IoU) dan kecepatan inferensi.
Hasil penelitian menunjukkan bahwa penambahan lapisan ConvLSTM pada U-Net-LSTM-Enc, U-Net-LSTM-Bri, dan U-Net-LSTM-BriV2 menurunkan kecepatan inferensi masing-masing 52%, 36%, dan 42%. Dari segi performa segmentasi, U-Net-LSTM-BriV2 berhasil mendapatkan hasil yang lebih baik dibandingkan U-Net-LSTM-Enc dan U-Net-LSTM-Bri dengan rata-rata IoU sebesar 0,72 berbanding dengan 0,70 dan 0,69. Hasil ini menunjukkan bahwa integrasi ConvLSTM pada U-Net-LSTM-BriV2 berhasil meningkatkan performa segmentasi. U-Net-LSTM-BriV2 mendapatkan hasil terbaik secara keseluruhan dengan rata-rata IoU, precision, recall, dan f1-score masing-masing 0 70, 88%, 80%, dan 84%.
U-Net is one of the architectures with excellent capabilities in road pothole segmentation. The challenge in road pothole segmentation lies in processing video data consisting of interconnected frames, while the segmentation focuses on individual image frames. Integration with recurrent neural network (RNN) layers such as Convolutional Long Short-Term Memory (ConvLSTM) can be employed to enhance U-Net’s performance on multi-frame data. This research utilized a dataset comprising 619 road pothole videos, each consisting of 48 frames. The applied steps include preprocessing, model creation, hyperparameter tuning, and evaluation. Preprocessing involves cropping, resizing, and normalization to standardize the data. Modeling includes a single U-Net model without ConvLSTM and three U-Net models with ConvLSTM: integration in the encoder, referred to as U-Net-LSTM-Enc; integration in the bridge, referred to as U-Net- LSTM-Bri; and a modification of U-Net-LSTM-Bri, referred to as U-Net-LSTM- BriV2. Hyperparameter tuning involves the loss function and batch size. Evaluation is performed on segmentation performance using Intersection over Union (IoU) and inference speed. The results indicate that adding ConvLSTM layers to U-Net-LSTM-Enc, U- Net-LSTM-Bri, and U-Net-LSTM-BriV2 reduces their respective inference speeds by 52%, 36%, and 42%. In terms of segmentation performance, U-Net-LSTM-BriV2 outperforms U-Net-LSTM-Enc and U-Net-LSTM-Bri with an average IoU of 0.72 compared to 0.70 and 0.69. This indicates that integrating ConvLSTM into U-Net-LSTM-BriV2 successfully enhances segmentation performance. U-Net-LSTM- BriV2 achieves the best overall results with average IoU, precision, recall, and f1- score of 0.70, 88%, 80%, and 84%, respectively.
Kata Kunci : Segmentasi lubang jalan, U-Net, Convolutional LSTM.