NAVIGASI ROBOT TUMBUH DI LINGKUNGAN 3D DENGAN RINTANGAN STATIS MENGGUNAKAN DEEP REINFORCEMENT LEARNING
Febrial Farabi, Ahmad Ataka Awwalur Rizqi, S.T., Ph.D. ; Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng., IPM., ASEAN Eng., SMIEEE.
2025 | Tesis | S2 Teknik Elektro
Penelitian ini bertujuan merancang dan mengevaluasi
sistem navigasi untuk robot tumbuh lunak 3D pada lingkungan dengan rintangan
statis, menggunakan tiga algoritma Deep Reinforcement Learning (DRL),
yaitu Proximal Policy Optimization (PPO), Deep Q-Network (DQN) dan Advantage
Actor-Critic (A2C). Implementasi dilakukan sepenuhnya berbasis Python
dengan framework Stable-Baselines3, serta lingkungan simulasi yang
dibangun di OpenAI Gym. Lingkungan 3D mencakup target statis yang posisinya
berubah pada setiap percobaan dan rintangan yang tetap, untuk menguji kemampuan
robot dalam mengatur lintasan dan menghindari tabrakan. Action space
didefinisikan secara diskrit (maju, belok kiri, belok kanan, diam), sedangkan observation
space mencakup posisi robot, posisi target, dan parameter navigasi lainnya.
Fungsi reward berbentuk logaritmik terhadap jarak ke target, dilengkapi
penalti untuk tabrakan, sehingga mendorong strategi navigasi yang efisien.
Hasil pengujian menunjukkan bahwa PPO secara konsisten menghasilkan lintasan
yang lebih halus dan akurat, dengan nilai MSE akhir yang lebih rendah
dibandingkan DQN dan A2C. Nilai MSE akhir PPO berkisar antara 0,010 hingga
0,075, menunjukkan kemampuan PPO dalam mengurangi kesalahan menuju target
dengan stabil, baik dalam menghindari rintangan maupun mencapai target.
Sebaliknya, DQN cenderung melakukan koreksi agresif yang menghasilkan nilai MSE
akhir yang lebih tinggi, berkisar antara 0,412 hingga 2,268, dan menghasilkan
lintasan yang kurang stabil. A2C menunjukkan hasil yang lebih baik dibandingkan
DQN, dengan nilai MSE akhir yang berkisar antara 0,255 hingga 1,349, meskipun
ada variabilitas dalam kecepatan adaptasi. Percobaan dengan waktu penyelesaian
lebih cepat, seperti Trial 7 (0,50 menit), menunjukkan hasil lebih
optimal, dengan clearance yang cepat mencapai stabilitas di sekitar
nilai 1,0. Temuan ini menegaskan bahwa PPO lebih unggul dalam hal stabilitas
dan efisiensi terhadap variasi posisi target dan rintangan, menjadikannya
pendekatan yang lebih andal untuk navigasi robot tumbuh lunak 3D, dengan
aplikasi potensial pada eksplorasi ruang sempit, inspeksi saluran tertutup,
operasi pencarian dan penyelamatan di area reruntuhan, serta aplikasi medis
minimal invasif. PPO terbukti lebih stabil dan efisien dalam mencapai target
dibandingkan dengan DQN dan A2C, yang lebih terpengaruh oleh dinamika
lingkungan yang kompleks.
This study aims to design and evaluate a navigation system for 3D soft growing robots in environments with static obstacles, using three Deep Reinforcement Learning (DRL) algorithms: Proximal Policy Optimization (PPO), Deep Q-Network (DQN), and Advantage Actor-Critic (A2C). The implementation was fully developed in Python using the Stable-Baselines3 framework, with a custom simulation environment built in OpenAI Gym. The 3D environment includes static targets with varying positions in each trial and fixed obstacles, designed to test the robot’s ability to adjust trajectories and avoid collisions. The action space was defined discretely (move forward, turn left, turn right, stay), while the observation space included the robot’s position, target position, and other navigation parameters. The reward function was logarithmic with respect to the distance to the target, combined with penalties for collisions, thereby encouraging efficient navigation strategies. Experimental results show that PPO consistently produced smoother and more accurate trajectories, with lower final MSE values compared to DQN and A2C. PPO’s final MSE ranged from 0.010 to 0.075, indicating its ability to reliably minimize errors while both avoiding obstacles and reaching the target. In contrast, DQN tended to apply aggressive corrections, resulting in higher final MSE values ranging from 0.412 to 2.268 and less stable trajectories. A2C performed better than DQN, with final MSE values between 0.255 and 1.349, although it exhibited variability in adaptation speed. Trials with faster completion times, such as Trial 7 (0.50 minutes), demonstrated more optimal results, achieving clearance quickly and stabilizing around 1.0. These findings highlight that PPO outperforms both DQN and A2C in terms of stability and efficiency across variations in target positions and obstacles, making it a more reliable approach for 3D soft growing robot navigation. Potential applications include confined-space exploration, closed-channel inspection, search and rescue operations in collapsed structures, and minimally invasive medical procedures. PPO has been proven to be more stable and efficient in reaching targets compared to DQN and A2C, which are more affected by complex environmental dynamics.
Kata Kunci : navigasi, robot tumbuh lunak 3D, PPO, DQN, A2C, observation space, action space.