PERFORMANCE ANALYSIS OF FIFO AND FAIR JOB SCHEDULING ALGORITHM ON SPARK CLUSTER BY USING SPARK-BENCH BENCHMARK
IRVIN HABIBIE I, Dr. Mardhani Riasetiawan, SE Ak, M.T.
2020 | Skripsi | S1 ILMU KOMPUTERDalam beberapa tahun terakhir, kebutuhan Big Data meningkat tajam untuk mempertahankan bisnis yang dibutuhkan. Big Data Framework yang memiliki tujuan untuk menganalisis data dan kemudian untuk memvisualisasikan data. Dengan menggunakan Apache Spark kita dapat mengatasi masalahnya bersama dengan komputer cluster. Spark sendiri memang memiliki dua algoritma penjadwalan, algoritma penjadwalan FAIR di mana setiap pekerjaan akan mendapatkan distribusi sumber daya yang sama untuk setiap pekerjaan, dan FIFO adalah algoritme penjadwalan pekerjaan yang setiap kali suatu pekerjaan mendekat, pekerjaan pertama yang mengirimnya terlebih dahulu akan mendapat prioritas dibandingkan dengan pekerjaan terakhir yang diajukan. Dengan menggunakan benchmarking, Spark-Bench, kita dapat menganalisis kinerja penjadwalan pekerjaan di Apache Spark. Penelitian ini terdiri dari 3 skenario, skenario pertama membandingkan kinerja penjadwalan pekerjaan Fair dan FIFO, skenario 2 membandingkan masing-masing parameter konfigurasi kinerja bersama dengan korelasi dengan penjadwalan pekerjaan yang sama, FIFO dan Fair. Skenario 3 adalah tempat kombinasi beberapa parameter dalam algoritma penjadwalan pekerjaan dengan korelasi. Metrik evaluasi yang digunakan dalam penelitian ini adalah runtime Total dan runtime eksekusi. Berdasarkan skenario 1, Fair mengungguli FIFO, masing-masing 1,6184 dan 1,6589 detik. Dalam skenario 2, secara keseluruhan, Adil mengungguli FIFO. Parameter konfigurasi tertinggi yang memiliki korelasi Pearson baik dalam penjadwalan pekerjaan yang adil dan penjadwalan pekerjaan FIFO adalah 0,1606. Dalam skenario terakhir, Wajar dilakukan lebih baik daripada FIFO. Hati-hati dengan parameter konfigurasi, beberapa di antaranya akan memperlambat penjadwalan pekerjaan.
In recent years, the needs of Big Data increase rapidly due to maintaining business data needed. Big Data framework that has goals to analyze the data and later for visualizing the data. By using Apache Spark we can overcome the solutions, along with cluster computer. Spark itself does have two job scheduling algorithms, FAIR scheduling algorithm where each job will get equal distribution of resources per each job, and FIFO is a job scheduling algorithm that every time a job is approaching, the first job who sends it first will have priority compared to latter jobs submitted. By using benchmarking, Spark-Bench, we could analyze the performance of job scheduling in Apache Spark. This research consisted of 3 scenarios, the first scenario comparing the performance of Fair and FIFO job scheduling, scenario 2 were comparing each parameter configuration performance along with correlation with the same job scheduling, FIFO and Fair. Scenario 3 is where a combination of several parameters in job scheduling algorithms with correlation. The evaluation metrics used in this research are Total runtime and execution runtime. Based on scenario 1, Fair outperform FIFO , 1.6184 and 1.6589 seconds respectively. In scenario 2, overall, Fair outperform FIFO. Parameter configurations that have highest Pearson correlations both in Fair job scheduling and FIFO job scheduling is 0.1606. In the last scenario, Fair is performed better than FIFO. Be careful with parameter configurations, some of them will slow down the job scheduling.
Kata Kunci : Big Data, Apache Spark, Cluster Computer, FIFO, FAIR