Laporkan Masalah

Kombinasi LiDAR dan Kamera untuk Deteksi Objek Tiga Dimensi menggunakan AVOD-FPN pada Kendaraan Otonom

Muhammad Rayyan Dzaki Santosa, Dr. M. Idham Ananta Timur, S.T., M.Kom.

2025 | Skripsi | ELEKTRONIKA DAN INSTRUMENTASI

Kendaraan otonom membutuhkan sistem persepsi yang mampu mendeteksi objek secara andal dalam ruang tiga dimensi. Penelitian ini mengimplementasikan arsitektur AVOD-FPN dengan fusi data LiDAR yang direpresentasikan dalam bentuk Bird’s Eye View (BEV) dan citra kamera RGB untuk deteksi objek tiga dimensi kelas Car.

Evaluasi dilakukan pada dua skenario pelatihan, yaitu skenario in-dataset menggunakan dataset KITTI serta skenario cross-dataset dengan pretraining pada data simulasi CARLA melalui CADET yang diikuti fine-tuning pada KITTI. Kinerja dievaluasi menggunakan Average Precision 3D (AP3D) dan Average Precision Bird’s Eye View (APBEV) dengan ambang Intersection over Union (IoU) sebesar 0,7 pada validation set KITTI.

Untuk tingkat kesulitan Easy–Moderate–Hard, nilai AP3D pada skenario in-dataset masing-masing mencapai 89,21%, 81,12%, dan 74,49%, sedangkan pada skenario cross-dataset diperoleh nilai 89,62%, 75,34%, dan 74,03%. Dibandingkan dengan baseline deteksi objek tiga dimensi berbasis LiDAR-only terbaik (SECOND) dengan AP3D 87,43%, 76,48%, dan 69,10%, pendekatan sensor fusion AVOD-FPN menunjukkan performa yang lebih tinggi pada seluruh tingkat kesulitan apabila dibandingkan dengan skenario in-dataset. Dari sisi efisiensi komputasi, rata-rata waktu pelatihan per–mini-batch berada pada kisaran ~29,9 ms dan waktu inferensi per-frame pada KITTI berada pada kisaran ~205–208 ms untuk kedua skenario, yang menunjukkan tidak adanya overhead komputasi yang signifikan.

Autonomous vehicles require a perception system capable of reliably detecting objects in three-dimensional space. This study implements the AVOD-FPN architecture with LiDAR–RGB sensor fusion, where LiDAR data are represented in Bird’s Eye View (BEV), for 3D object detection of the Car class.

The evaluation is conducted under two training scenarios: an in-dataset scenario using the KITTI dataset and a cross-dataset scenario with pretraining on simulated CARLA data via CADET followed by fine-tuning on KITTI. Performance is evaluated using Average Precision 3D (AP3D) and Average Precision Bird’s Eye View (APBEV) with an Intersection over Union (IoU) threshold of 0.7 on the KITTI validation set.

For the Easy–Moderate–Hard difficulty levels, the in-dataset scenario achieves AP3D values of 89.21%, 81.12%, and 74.49%, while the cross-dataset scenario attains 89.62%, 75.34%, and 74.03%. Compared to the best LiDAR-only baseline (SECOND), which reports AP3D values of 87.43%, 76.48%, and 69.10%, the AVOD-FPN sensor fusion approach demonstrates consistently higher performance across all difficulty levels in the in-dataset setting. In terms of computational efficiency, the average training time per mini-batch is approximately 29.9 ms, and the inference time per frame on KITTI ranges from 205 to 208 ms for both scenarios, indicating no significant computational overhead.

Kata Kunci : deteksi objek 3D, AVOD-FPN, LiDAR, kamera RGB, sensor fusion, CARLA, KITTI, cross-dataset.

  1. S1-2025-499065-abstract.pdf  
  2. S1-2025-499065-bibliography.pdf  
  3. S1-2025-499065-tableofcontent.pdf  
  4. S1-2025-499065-title.pdf  
  5. S1-2026-499065-abstract.pdf  
  6. S1-2026-499065-bibliography.pdf