NAVIGASI ROBOT TUMBUH DI LINGKUNGAN 3D  DENGAN RINTANGAN STATIS MENGGUNAKAN  DEEP REINFORCEMENT LEARNING

Febrial Farabi

NAVIGASI ROBOT TUMBUH DI LINGKUNGAN 3D DENGAN RINTANGAN STATIS MENGGUNAKAN DEEP REINFORCEMENT LEARNING

Febrial Farabi, Ahmad Ataka Awwalur Rizqi, S.T., Ph.D. ; Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng., IPM., ASEAN Eng., SMIEEE.

2025 | Tesis | S2 Teknik Elektro

Abstrak
File Pdf

Penelitian ini bertujuan merancang dan mengevaluasi sistem navigasi untuk robot tumbuh lunak 3D pada lingkungan dengan rintangan statis, menggunakan tiga algoritma Deep Reinforcement Learning (DRL), yaitu Proximal Policy Optimization (PPO), Deep Q-Network (DQN) dan Advantage Actor-Critic (A2C). Implementasi dilakukan sepenuhnya berbasis Python dengan framework Stable-Baselines3, serta lingkungan simulasi yang dibangun di OpenAI Gym. Lingkungan 3D mencakup target statis yang posisinya berubah pada setiap percobaan dan rintangan yang tetap, untuk menguji kemampuan robot dalam mengatur lintasan dan menghindari tabrakan. Action space didefinisikan secara diskrit (maju, belok kiri, belok kanan, diam), sedangkan observation space mencakup posisi robot, posisi target, dan parameter navigasi lainnya. Fungsi reward berbentuk logaritmik terhadap jarak ke target, dilengkapi penalti untuk tabrakan, sehingga mendorong strategi navigasi yang efisien. Hasil pengujian menunjukkan bahwa PPO secara konsisten menghasilkan lintasan yang lebih halus dan akurat, dengan nilai MSE akhir yang lebih rendah dibandingkan DQN dan A2C. Nilai MSE akhir PPO berkisar antara 0,010 hingga 0,075, menunjukkan kemampuan PPO dalam mengurangi kesalahan menuju target dengan stabil, baik dalam menghindari rintangan maupun mencapai target. Sebaliknya, DQN cenderung melakukan koreksi agresif yang menghasilkan nilai MSE akhir yang lebih tinggi, berkisar antara 0,412 hingga 2,268, dan menghasilkan lintasan yang kurang stabil. A2C menunjukkan hasil yang lebih baik dibandingkan DQN, dengan nilai MSE akhir yang berkisar antara 0,255 hingga 1,349, meskipun ada variabilitas dalam kecepatan adaptasi. Percobaan dengan waktu penyelesaian lebih cepat, seperti Trial 7 (0,50 menit), menunjukkan hasil lebih optimal, dengan clearance yang cepat mencapai stabilitas di sekitar nilai 1,0. Temuan ini menegaskan bahwa PPO lebih unggul dalam hal stabilitas dan efisiensi terhadap variasi posisi target dan rintangan, menjadikannya pendekatan yang lebih andal untuk navigasi robot tumbuh lunak 3D, dengan aplikasi potensial pada eksplorasi ruang sempit, inspeksi saluran tertutup, operasi pencarian dan penyelamatan di area reruntuhan, serta aplikasi medis minimal invasif. PPO terbukti lebih stabil dan efisien dalam mencapai target dibandingkan dengan DQN dan A2C, yang lebih terpengaruh oleh dinamika lingkungan yang kompleks.

This study aims to design and evaluate a navigation system for 3D soft growing robots in environments with static obstacles, using three Deep Reinforcement Learning (DRL) algorithms: Proximal Policy Optimization (PPO), Deep Q-Network (DQN), and Advantage Actor-Critic (A2C). The implementation was fully developed in Python using the Stable-Baselines3 framework, with a custom simulation environment built in OpenAI Gym. The 3D environment includes static targets with varying positions in each trial and fixed obstacles, designed to test the robot’s ability to adjust trajectories and avoid collisions. The action space was defined discretely (move forward, turn left, turn right, stay), while the observation space included the robot’s position, target position, and other navigation parameters. The reward function was logarithmic with respect to the distance to the target, combined with penalties for collisions, thereby encouraging efficient navigation strategies. Experimental results show that PPO consistently produced smoother and more accurate trajectories, with lower final MSE values compared to DQN and A2C. PPO’s final MSE ranged from 0.010 to 0.075, indicating its ability to reliably minimize errors while both avoiding obstacles and reaching the target. In contrast, DQN tended to apply aggressive corrections, resulting in higher final MSE values ranging from 0.412 to 2.268 and less stable trajectories. A2C performed better than DQN, with final MSE values between 0.255 and 1.349, although it exhibited variability in adaptation speed. Trials with faster completion times, such as Trial 7 (0.50 minutes), demonstrated more optimal results, achieving clearance quickly and stabilizing around 1.0. These findings highlight that PPO outperforms both DQN and A2C in terms of stability and efficiency across variations in target positions and obstacles, making it a more reliable approach for 3D soft growing robot navigation. Potential applications include confined-space exploration, closed-channel inspection, search and rescue operations in collapsed structures, and minimally invasive medical procedures. PPO has been proven to be more stable and efficient in reaching targets compared to DQN and A2C, which are more affected by complex environmental dynamics.

Kata Kunci : navigasi, robot tumbuh lunak 3D, PPO, DQN, A2C, observation space, action space.

S2-2025-514332-abstract.pdf
S2-2025-514332-bibliography.pdf
S2-2025-514332-tableofcontent.pdf
S2-2025-514332-title.pdf

LAYANAN

E-Resources

Quick Access