Perbandingan Kinerja Algoritma Reinforcement Learning pada Environment Robot HalfCheetah
Nina Grizka Deslanya, Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng., IPM., SMIEEE.; Dr. Ir. Yusuf Susilo Wijoyo, S.T., M.Eng.
2025 | Skripsi | TEKNIK ELEKTRO
Autonomous robot dan Artificial Intelligence (AI) merupakan dua bentuk teknologi yang saat ini tengah berkembang dengan pesat di era revolusi industri 4.0. Telah banyak dijumpai penerapan dari kedua bentuk teknologi tersebut di kehidupan sehari-hari. Keunggulan yang ditawarkan memberikan dampak positif terhadap pekerjaan manusia, di antaranya adalah dapat meningkatkan produktivitas, efektivitas, dan efisiensi. Perpaduan antara teknologi autonomous robot dan artificial intelligence mampu menghasilkan suatu sistem terintegrasi yang dapat menyelesaikan permasalahan dengan tingkatan yang lebih kompleks. Reinforcement learning merupakan salah satu cabang dari artificial intelligence yang saat ini cukup populer sebagai metode kendali otomatis untuk autonomous robot. Terdapat banyak macam algoritma reinforcement learning dengan berbagai karakteristiknya masing-masing yang dapat dipilih dalam menyelesaikan permasalahan tertentu. Dalam konteks autonomous robot, dibutuhkan algoritma reinforcement learning yang dikombinasikan dengan metode deep learning, dikenal dengan metode deep reinforcement learning.
Pemilihan algoritma yang akan digunakan sebagai sistem kendali merupakan salah satu hal yang harus diperhatikan guna menghasilkan kinerja robot yang baik. Pada tugas akhir ini, akan dilihat dan dibandingkan kinerja algoritma reinforcement learning yang berbeda dalam melatih simulasi robot bergerak model hewan berkaki empat yang bernama HalfCheetah. Selain itu, pengaruh yang diberikan oleh pengaturan salah satu hyperparameter, yaitu arsitektur jaringan atau network architecture terhadap kinerja algoritma juga akan diperhatikan. Metode yang digunakan adalah dengan melakukan pembelajaran atau training model robot HalfCheetah menggunakan beberapa algoritma reinforcement learning, yaitu PPO, A2C, DDPG, TD3, dan SAC. Pada pengujian di tiap algoritma, dicoba pula beberapa pengaturan hyperparameter arsitektur jaringan. Hasil dari eksperimen yang telah dilakukan menunjukkan bahwa pengaturan hyperparameter memberikan pengaruh terhadap kinerja algoritma reinforcement learning dengan tingkat signifikansi yang berbeda-beda. Selain itu, algoritma TD3 menunjukkan kinerja terbaik di antara algoritma lain yang diuji pada environment robot HalfCheetah.
Autonomous robots and Artificial Intelligence (AI) are two forms of technology that are currently developing rapidly in the era of the fourth industrial revolution. There have been many applications of these technologies in everyday’s life. The advantages they offered have a good impact on human’s tasks, including increasing productivity, effectiveness, and efficiency. The combination of autonomous robots and artificial intelligence creates an integrated system capable of solving problems with greater complexity. Reinforcement learning is a branch of artificial intelligence that has become quite popular as an autonomous control method for autonomous robots. There are many types of reinforcement learning algorithms with its own characteristic that can be selected to address specific problems. In the context of autonomous robots, reinforcement learning algorithms often need to be combined with deep learning methods, known as deep reinforcement learning.
The process of selecting the algorithm to be used as a control system in reinforcement learning is one of the critical aspects that must be considered in order to achieve good robot performance. In this final project, the performance of different reinforcement learning algorithms will be evaluated and compared in training a simulation environment of quadruped robot called HalfCheetah. Additionally, the effect of one particular hyperparameter, that is network architecture, on the algorithm’s performance will also be examined. HalfCheetah will be trained using several reinforcement learning algorithms such as PPO, A2C, DDPG, TD3, and SAC. In the testing of each algorithm, the network architecture hyperparameter will be varied. The results of the experiments show that the hyperparameter settings have an impact on the performance with different level of significancy for each algorithm. Furthermore, TD3 demonstrated the best performance among all the algorithms being tested on the HalfCheetah robot environment.
Kata Kunci : Reinforcement learning, Deep learning, Artificial neural network, Multilayer perceptron