Sistem Pemandu Pesawat Nirawak Sayap Tetap untuk Penelusuran Waypoint Dua Dimensi
AHMAD SHIDDIQ N, Dr. Andi Dharmawan, S.Si., M.Cs.; Muhammad Idham Ananta Timur, S.T., M.Kom.
2021 | Skripsi | S1 ELEKTRONIKA DAN INSTRUMENTASISalah satu misi Unmanned Aerial Vehicle (UAV) atau pesawat nirawak adalah penelusuran waypoint, yaitu pesawat terbang menuju titik-titik waypoint secara otonom yang sudah direncanakan sebelum atau saat terbang. Sistem pemandu diperlukan sebagai sistem yang melakukan perhitungan agar pesawat nirawak terbang sesuai lintasan yang terbentuk dari titik-titik waypoint tujuannya. Untuk itu, Reinforcement Learning (RL) dengan metode Deep Deterministic Policy Gradient (DDPG) dirancang. Enam buah fungsi penghargaan dirumuskan berdasarkan policy yang diharapkan dapat agen RL pelajari. Setiap policy diuji di lintasan lurus dan lintasan dengan sudut belok sebesar [-180, 180]° dengan rentang 45° dan toleransi setiap lintasan sebesar 15 meter. Fungsi penghargaan 6 menghasilkan policy dengan respons sistem tercepat berdasarkan pengujian di lintasan lurus. Ketika cross-track error bernilai 100 meter, pesawat membutuhkan (9,718±0,120) ms s.d. (11,361±0,171) ms untuk konvergen ke lintasannya. Pada pengujian di lintasan belok, cross-track error terbaik di sudut belok -135° adalah (16,869±0,170) meter; (5,674±0,205) meter pada -90°; (1,246±0,039) meter pada -45°; (1,002±0,040) meter pada 45°; (3,560±0,190) meter pada 90°; (15,024±0,183) meter pada 135°; (26,364±0,227) meter pada ±180°yang secara berurutan dihasilkan oleh model yang dilatih menggunakan fungsi penghargaan 4, 1, 6, 6, 1, 1, dan 1. Dengan demikian, sistem pemandu yang dirancang menggunakan RL berhasil melakukan penelusuran waypoint.
Trajectory tracking is one of many autonomous mission of unmanned aerial vehicle (UAV). A UAV needs to fly through a series of waypoints planned before or while the UAV is flying. To do that, a guidance system, a system to maintain UAV�s position while flying along the track formed by the waypoints, is needed. Using a novel Deep Deterministic Policy Gradient (DDPG) method of Reinforcement Learning (RL), the needed guidance system is designed. Six reward functions are formulated based on the policy RL agent needs to learn. Each policy is tested on a straight-line and a [-180, 180]° turned-line with the interval of 45°, each with 15 meters tolerance. The result shows an agent trained with reward function 6 has the best response time of (9.718±0.120) ms to (11.361±0.171) ms to converge from a 100 meter cross-track error. On -135° turned-line, the best cross-track error achieved is (16.869±0.170) meter; (5.674±0.205) meter on -90°; (1.246±0.039) meter on -45°; (1.002±0.040) meter on 45°; (3.560±0.190) meter on 90°; (15.024±0.183) meter on 135°; and (26.364±0.227) meter on ±180°, each trained with reward function 4, 1, 6, 6, 1, 1, and 1 respectively. Thus, the designed guidance system has successfully done the trajectory tracking.
Kata Kunci : Sistem Pemandu, Waypoint, Reinforcement Learning, DDPG