IMPLEMENTASI AIRFLOW DAN APACHE SPARK DALAM PERANCANGAN DATA PIPELINE UNTUK DATA PROCESSING AUTOMATION PADA CLOUD-BASED SERVER
Gigih Haryo Yudhanto, Yuris Mulya Saputra, S.T., M.sc., Ph.D.
2023 | Tugas Akhir | D4 TEKNOLOGI JARINGAN
Volume data yang besar
seringkali tidak diimbangi dengan kualitas data yang memadai dan membuat
informasi yang didapat menjadi bias sehingga rawan terjadi kesalahan dalam
pengambilan keputusan. Berdasarkan permasalahan tersebut, penelitian dilakukan
untuk membuat sistem pemrosesan data secara otomatis untuk meningkatkan
kualitas data pada data pipeline.
Sistem dibuat dengan memanfaatkan Apache Airflow sebagai workflow orchestrator dan scheduler
untuk menjalankan data pipeline
mulai dari crawling data, penyimpanan
data, dan pemrosesan data. Data hasil crawling
akan diproses oleh Apache Spark untuk meningkatkan kualitas data sebelum
akhirnya divisualisasikan oleh Looker Datastudio. Dalam penelitian ini,
dilakukan pengujian performa Apache Spark untuk mengetahui kecepatan pemrosesan
data yang dilakukan. Dari hasil pengujian performa Apache Spark, menunjukkan
variasi jumlah core pada spark executor memiliki pengaruh signifikan
terhadap kecepatan pemrosesan data yang dilakukan, sementara variasi besar memory pada spark executor tidak memiliki pengaruh signifikan terhadap kecepatan
pemrosesan data pada spark executor dengan
jumlah core lebih dari satu. Selain
itu, dilakukan juga pengujian kualitas data yang meliputi tiga parameter
kualitas data yaitu completeness,
uniqueness, dan validity. Berdasarkan
hasil pengujian kualitas data, diketahui pemrosesan data dapat mengurangi error data pada pengujian completeness menjadi 0%, pengujian uniqueness menjadi 0%, dan pengujian validity menjadi 0%.
Large volumes of data are
often not matched by adequate data quality and make the information obtained
biased so that it is prone to errors in decision making. Based on these
problems, research was conducted to create an automated data processing system
to improve data quality in the data pipeline. The system was created by
utilizing Apache Airflow as a workflow orchestrator and scheduler to run the
data pipeline starting from data crawling, data storage, and data processing.
The crawled data will be processed by Apache Spark to improve data quality
before being visualized by Looker Datastudio. In this study, Apache Spark
performance testing was carried out to determine the speed of data processing
carried out. From the results of Apache Spark performance testing, it shows
that variations in the number of cores in the spark executor have a significant
effect on the speed of data processing carried out, while variations in the
amount of memory in the spark executor do not have a significant effect on the
speed of data processing on spark executors with more than one core. In
addition, data quality testing is also carried out which includes three data
quality parameters, namely completeness, uniqueness, and validity. Based on the
results of data quality testing, it is known that data processing can reduce
data errors in completeness testing to 0%, uniqueness testing to 0%, and
validity testing to 0%.
Kata Kunci : kualitas data, pemrosesan data, Apache Airflow, Apache Spark