Laporkan Masalah

Formasi Pola Tiga Dimensi Pada Simulasi Quadcopter Berbasis Multi-Agent Reinforcement Learning

M. Imam Muttaqin, Prof. Dr.-Ing. Mhd. Reza M. I. Pulungan, S.Si., M.Sc.

2026 | Tesis | S2 Ilmu Komputer

Pembentukan pola atau formasi merupakan kasus multi-agent dengan tipe lingkungan kooperatif yang membutuhkan koordinasi dari setiap agent untuk mencapai suatu koordinat tertentu secara real time. Pembentukan pola atau formasi tiga dimensi dapat dicapai apabila agent memiliki pergerakan seperti pada quadcopter. Oleh sebab itu diperlukan metode yang dapat melakukan aproksimasi pada data kontinu seperti sensor dan motor yang terdapat pada masing-masing quadcopter secara adaptif dan dinamis. Penelitian ini menggunakan metode Multi-Agent Proximal Policy Optimization dengan tujuan agar sistem dapat melakukan pembelajaran secara bertahap bertahap untuk mencapai formasi tiga dimensi secara adaptif dan pada prosesnya dapat menghindari tabrakan antar agent. Evaluasi dilakukan sebanyak 100 kali percobaan pada 5 formasi berbeda dan menunjukkan bahwa metode Multi-Agent Proximal Policy Optimization mendapatkan metriks success rate sebanyak 91,2?n rata-rata settling time 400,28 step dengan rata-rata standar deviasi yaitu 32,47. Hasil juga menunjukkan bahwa sistem dapat melakukan koordinasi cukup baik, dibuktikan dengan hasil rata-rata tabrakan antar agent hanya 0,048 kejadian selama proses evaluasi berlangsung.

The formation pattern is a multi-agent case with a cooperative environment type that requires coordination among agents to reach certain coordinates in real time. A Three-dimensional formation can be achieved if the agents exhibit movements similar to those of quadcopters. Therefore, a method capable of approximating continuous data, such as the sensor and motor data on each quadcopter, in an adaptive and dynamic manner is required. This study employs the Multi-Agent Proximal Policy Optimization (MAPPO) method aiming to enable the system to learn progressively in order to achieve three-dimensional formation adaptively while avoiding collisions between agents during the process. The evaluation was conducted through 100 experiments in five different formations, showing that the Multi-Agent Proximal Policy Optimization method achieved a success rate of 91,2% and an average settlement time of 400,28 steps, with an average standard deviation of 32,47. The results also indicate that the system successfully minimized inter-agent collisions, with an average of 0.048 collision events observed during the evaluation process.

Kata Kunci : Three-dimensional formation, quadcopter, simulation, multi-agent reinforcement learning, proximal policy optimization.

  1. S2-2026-530326-abstract.pdf  
  2. S2-2026-530326-bibliography.pdf  
  3. S2-2026-530326-tableofcontent.pdf  
  4. S2-2026-530326-title.pdf