PENGEMBANGAN MODEL ADVANTAGE ACTOR CRITIC TERHADAP PENGATURAN SINYAL LALU LINTAS ADAPTIF
HAYFA TSURAYYA, Muhammad Idham Ananta Timur, S.T., M.Kom.
2021 | Skripsi | S1 ELEKTRONIKA DAN INSTRUMENTASIPermasalahan yang sering terjadi di kota-kota besar adalah padatnya lalu lintas hingga mengakibatkan kemacetan yang parah. Salah satu upaya untuk mengurangi kemacetan adalah dengan menerapkan kontrol sinyal lalu lintas adaptif sebagai bagian dari prinsip sistem transportasi cerdas. Kontrol sinyal lalu lintas adaptif ini menerapkan Reinforcement Learning (RL) dalam pengaplikasiannya. Dari sekian banyak algoritme yang ada, salah satu jenis algoritme yang dianggap efisien dan kuat merupakan algoritme aktor kritik. Algoritme ini memiliki kemampuan belajar dengan cepat meski itu pada keadaan lalu lintas yang baru, yaitu kondisi yang tidak pernah terjadi sebelumnya. Algoritme ini pula yang akan digunakan dalam penelitian untuk merancang kontrol lalu lintas adaptif yang disebut Advantage Actor Critic (A2C). Penelitian ini berfokus pada penggunaan perbandingan algoritme A2C dengan DQN (Deep Q-Network) pada setiap kepadatan lalu lintas yang berbeda. DQN merupakan metode yang hanya menggunakan fungsi nilai dalam proses pengerjaannya. Sedangkan A2C akan menggunakan kedua fungsi sekaligus, yaitu fungsi nilai dan fungsi policy dalam pengerjaanya. Hasil yang didapat adalah A2C lebih unggul dibandingkan DQN. Terlihat dari jumlah persentase ke lima jenis kepadatan kendaraan pada persimpangan lalu lintas. Meskipun pada kondisi yang sangat padat, DQN lebih unggul 8,8%. Namun, pada pengujian selanjutnya dengan berkurangnya kendaraan yang masuk per detiknya menghasilkan A2C yang lebih unggul, yaitu 64,35% pada kondisi agak padat, 99,63% pada kondisi padat, 99,71% pada kondisi jarang, dan 99,87% pada kondisi sepi. Reward yang dihasilkan oleh A2C menunjukkan bahwa algoritme ini lebih stabil dan belajar dengan cepat baik dalam kondisi sepi maupun padat.
The problem that often occurs in big cities is heavy traffic causing severe congestion. One of the efforts to reduce congestion is to implement adaptive traffic signal control as part of the principle of intelligent transportation systems. This adaptive traffic signal control applies Reinforcement Learning (RL) in its application. Many of the existing algorithms, one type of algorithm that is considered efficient and strong is the critical actor algorithm. This algorithm has the ability to learn quickly even in new traffic conditions, namely conditions that have never happened before. This algorithm will also be used in research to design adaptive traffic control called Advantage Actor Critic (A2C). This study focuses on using the comparison of the A2C algorithm with DQN (Deep Q-Network) at each different traffic density. DQN is a method that only uses value functions in the process. While A2C will use both functions at once, namely the value function and the policy function in its implementation. The results obtained are A2C is superior to DQN. It can be seen from the total percentage of the five types of vehicle density at traffic intersections. Even under very dense conditions, DQN was 8.8% superior. However, in subsequent tests with reduced vehicles entering per second resulted in superior A2C, namely 64.35% in moderately congested conditions, 99.63% in dense conditions, 99.71% in rare conditions, and 99.87% in quiet conditions. The reward generated by A2C shows that this algorithm is more stable and learns quickly in both quiet and crowded conditions.
Kata Kunci : Reinforcement Learning, ATSC, aktor kritik, DQN, A2C.