Sistem Deteksi Objek 3D Berbasis YOLOv5 Menggunakan Perangkat Kamera Monokular dan Nvidia Jetson Nano
Didi Ruhyadi, Ir. Nazrul Effendy, S.T., M.T., Ph.D., IPM.; Ir. Agus Arif, M.T.
2023 | Skripsi | FISIKA TEKNIK
Deteksi objek 3D memberikan keunggulan dibanding deteksi objek 2D seperti dapat mengestimasi lokasi, dimensi dan orientasi objek. Salah satu bidang pengaplikasian deteksi objek 3D adalah sistem persepsi kendaraan otonom. Tujuan dari sistem tersebut adalah mengetahui keadaan lingkungan sekitar termasuk mendeteksi objek, marka, dan tanda jalan raya guna menjaga keamanan mengemudi. Untuk mencapai tujuan tersebut sistem persepsi dilengkapi berbagai sensor seperti kamera, LiDAR, dan radar. Dalam penelitian ini, hanya digunakan satu buah kamera (monokuler) sebagai sensor utama untuk mendeteksi objek secara 3D.
Metode deteksi objek 3D berbasis deep learning menggunakan kombinasi model detektor dan regresor digunakan dalam penelitian ini. Model detektor YOLOv5 digunakan untuk mendeteksi objek (car, pedestrian, cyclist) dan menghasilkan kotak pembatas 2D dari objek tersebut. Kotak pembatas tersebut selanjutnya di regresi menggunakan model regresor Multibin untuk memprediksi lokasi, dimensi dan orientasi objek. Kedua buah model dilatih dan dievaluasi menggunakan dataset KITTI.
Penelitian ini telah berhasil merancang model deteksi objek 3D yang dinamakan YOLO3D. Hasil benchmark pada dataset KITTI menghasilkan nilai mAP2D, mAP3D, mAPBEV dan AOS masing-masing sebesar 95,90%, 5,92%, 12,73?n 75,88%. Model berhasil ditanamkan pada perangkat Nvidia Jetson Nano dan Nvidia DGX dengan latensi sebesar 1343 ms dan 28,47 ms.
3D object detection provides advantages over 2D object detection such as being able to estimate the location, dimensions and orientation of the objects. One area of application for 3D object detection is the autonomous vehicle perception system. The purpose of the system is to know the state of the surrounding environment including detecting objects, markings and road signs in order to maintain driving safety. To achieve this goal the perception system is equipped with various sensors such as cameras, LiDAR and radar. In this study, a single camera (monocular) was used as the main sensor to detect objects in 3D.
A deep learning-based 3D object detection method using a combination of detector and regressor models is used in this study. The YOLOv5 detector model is used to detect objects (car, pedestrian, cyclist) and generate a 2D bounding box from these objects. The bounding box is then regressed using the Multibin regressor model to predict the location, dimensions and orientation of the object. Both models were trained and evaluated using the KITTI dataset.
This research has succeeded in designing a 3D object detection model called YOLO3D. Benchmark results on the KITTI dataset yield mAP2D, mAP3D, mAPBEV and AOS values of 95.90%, 5.92%, 12.73% and 75.88%, respectively. The model is implemented on Nvidia Jetson Nano devices and Nvidia DGX with latencies of 1343 ms and 28.47 ms.
Kata Kunci : deteksi objek 3D monokular, kendaraan otonom, YOLO