METODE CURRICULUM LEARNING UNTUK SISTEM MANAJEMEN DAYA BERBASIS DEEP REINFORCEMENT LEARNING PADA SISTEM HIGH PERFORMANCE COMPUTING
THOMAS BUDIARJO, Muhammad Alfian Amrizal, B.Eng., M.I.S., Ph.D.
2024 | Skripsi | ILMU KOMPUTER
Penggunaan energi yang tinggi adalah salah satu masalah utama yang harus diatasi dalam operasi sistem High-Performance Computing (HPC). Biasanya, sistem HPC terdiri dari ratusan hingga ribuan node komputasi yang mengonsumsi banyak daya listrik, bahkan ketika tidak digunakan. Oleh karena itu, node yang tidak digunakan selama periode tertentu dapat dimatikan untuk meningkatkan efisiensi penggunaan energi. Namun, perlu diperhatikan bahwa mematikan node pada waktu yang kurang tepat dapat mengurangi Quality of Service dari sistem. Hal ini karena ketika job baru datang tepat setelah node dimatikan, kesempatan untuk mengeksekusi job tersebut dapat hilang.
Salah satu solusi yang menjanjikan untuk memprediksi waktu optimal untuk mengaktifkan atau menonaktifkan node adalah melalui Machine Learning (ML), khususnya Reinforcement Learning (RL). Penelitian ini mengeksplorasi penerapan Curriculum Learning (CL) untuk meningkatkan performa Deep Reinforcement Learning (DRL) dalam manajemen daya pada sistem High Performance Computing (HPC). Model dengan CL ini akan dibandingkan dengan model DRL tanpa CL dan juga metode timeout policy (mematikan node setelah idle selama periode waktu tertentu) menggunakan simulator Batsim.
Dalam evaluasi penelitian ini, berbagai strategi kurikulum yaitu Easy to Hard, Hard to Easy, dan Hard-Easy-Hard dibandingkan menggunakan berbagai dataset (real, sample, dan synthetic). Hasil simulasi menunjukkan bahwa kurikulum Easy to Hard mengungguli strategi lain, menghasilkan penghematan energi sebesar 3,73% dibandingkan model tanpa kurikulum dan penghematan 4,66% dibandingkan timeout policy optimal (15 menit). Selain itu, Best Agent yang dilatih dengan kurikulum Easy to Hard mengurangi waktu tunggu rata-rata pekerjaan sebesar 9,24% dibandingkan dengan timeout policy optimal. Hasil ini menunjukkan potensi CL dalam meningkatkan efisiensi agen DRL untuk manajemen daya di sistem HPC.
The high energy consumption is one of the main issues to address in the operation of High-Performance Computing (HPC) systems. Typically, HPC systems consist of hundreds to thousands of compute nodes that consume significant electrical power, even when not in use. Therefore, nodes that remain unused for a certain period can be powered down to enhance energy efficiency. However, it is crucial to consider that shutting down nodes at inappropriate times can reduce the Quality of Service (QoS) of the system. This is because if a new job arrives shortly after a node has been powered down, the opportunity to execute that job may be lost.
One promising solution for predicting the optimal time to activate or deactivate nodes is through Machine Learning (ML), specifically Reinforcement Learning (RL). This research explores the application of Curriculum Learning (CL) to enhance the performance of Deep Reinforcement Learning (DRL) in power management for High-Performance Computing (HPC) systems. The model using CL will be compared with a DRL model without CL and also with the timeout policy method (shutting down nodes after being idle for a certain period) using the Batsim simulator.
In this study's evaluation, various curriculum strategies (Easy to Hard, Hard to Easy, and Hard-Easy-Hard) were compared using different datasets (real, sample, and synthetic). Simulation results show that the Easy to Hard curriculum outperforms other strategies, achieving an energy saving of 3.73% compared to the model without curriculum and a 4.66% saving compared to the optimal timeout policy (15 minutes). Additionally, the Best Agent trained with the Easy to Hard curriculum reduces the average job waiting time by 9.24% compared to the optimal timeout policy. These results demonstrate the potential of CL in enhancing the efficiency of DRL agents for power management in HPC systems.
Kata Kunci : High Performance Computing, Manajemen Daya, Deep Reinforcement Learning, Penggunaan energi, Advantage Actor-Critic