Laporkan Masalah

IMPLEMENTASI AIRFLOW DAN APACHE SPARK DALAM PERANCANGAN DATA PIPELINE UNTUK DATA PROCESSING AUTOMATION PADA CLOUD-BASED SERVER

Gigih Haryo Yudhanto, Yuris Mulya Saputra, S.T., M.sc., Ph.D.

2023 | Tugas Akhir | D4 TEKNOLOGI JARINGAN

Volume data yang besar seringkali tidak diimbangi dengan kualitas data yang memadai dan membuat informasi yang didapat menjadi bias sehingga rawan terjadi kesalahan dalam pengambilan keputusan. Berdasarkan permasalahan tersebut, penelitian dilakukan untuk membuat sistem pemrosesan data secara otomatis untuk meningkatkan kualitas data pada data pipeline. Sistem dibuat dengan memanfaatkan Apache Airflow sebagai workflow orchestrator dan scheduler untuk menjalankan data pipeline mulai dari crawling data, penyimpanan data, dan pemrosesan data. Data hasil crawling akan diproses oleh Apache Spark untuk meningkatkan kualitas data sebelum akhirnya divisualisasikan oleh Looker Datastudio. Dalam penelitian ini, dilakukan pengujian performa Apache Spark untuk mengetahui kecepatan pemrosesan data yang dilakukan. Dari hasil pengujian performa Apache Spark, menunjukkan variasi jumlah core pada spark executor memiliki pengaruh signifikan terhadap kecepatan pemrosesan data yang dilakukan, sementara variasi besar memory pada spark executor tidak memiliki pengaruh signifikan terhadap kecepatan pemrosesan data pada spark executor dengan jumlah core lebih dari satu. Selain itu, dilakukan juga pengujian kualitas data yang meliputi tiga parameter kualitas data yaitu completeness, uniqueness, dan validity. Berdasarkan hasil pengujian kualitas data, diketahui pemrosesan data dapat mengurangi error data pada pengujian completeness menjadi 0%, pengujian uniqueness menjadi 0%, dan pengujian validity menjadi 0%. 

Large volumes of data are often not matched by adequate data quality and make the information obtained biased so that it is prone to errors in decision making. Based on these problems, research was conducted to create an automated data processing system to improve data quality in the data pipeline. The system was created by utilizing Apache Airflow as a workflow orchestrator and scheduler to run the data pipeline starting from data crawling, data storage, and data processing. The crawled data will be processed by Apache Spark to improve data quality before being visualized by Looker Datastudio. In this study, Apache Spark performance testing was carried out to determine the speed of data processing carried out. From the results of Apache Spark performance testing, it shows that variations in the number of cores in the spark executor have a significant effect on the speed of data processing carried out, while variations in the amount of memory in the spark executor do not have a significant effect on the speed of data processing on spark executors with more than one core. In addition, data quality testing is also carried out which includes three data quality parameters, namely completeness, uniqueness, and validity. Based on the results of data quality testing, it is known that data processing can reduce data errors in completeness testing to 0%, uniqueness testing to 0%, and validity testing to 0%. 

Kata Kunci : kualitas data, pemrosesan data, Apache Airflow, Apache Spark

  1. D4-2023-447091-abstract.pdf  
  2. D4-2023-447091-bibliography.pdf  
  3. D4-2023-447091-tableofcontent.pdf  
  4. D4-2023-447091-title.pdf