Laporkan Masalah

PENGEMBANGAN WORKFLOW BIG DATA DENGAN PENDEKATAN TIME SERIES DALAM STUDI KASUS DATA TRANSAKSI BUS RAPID TRANSIT MENGGUNAKAN SPARK

VINSENSIUS PRIMANANDA SATYA W, Noor Akhmad Setiawan, S.T., M.T., Ph.D.; Dani Adhipta, S.Si., M.T.

2017 | Skripsi | S1 TEKNOLOGI INFORMASI

Perkembangan Bus Rapid Transit (BRT) di Daerah Khusus Ibukota Jakarta memicu perusahaan pengelola BRT untuk melakukan pengembangan layanan. Salah satu caranya adalah dengan mengubah infrastruktur pengolahan data transaksi untuk beradaptasi ke paradigma big data agar pengolahan data dapat efektif. Penelitian ini mengembangkan workflow yang memungkinkan perusahaan pengelola BRT untuk melakukan proses agregasi lebih dari 164.000.000 baris data transaksi dan menampilkan suatu bentuk visualisasi berdasarkan kurun waktu (time series) agar pengambil keputusan dapat dengan mudah mengambil informasi yang diperlukan dalam keputusan bisnis. Workflow agregasi data dibuat dengan bantuan framework pemrosesan big data Apache Spark dan menggunakan bahasa pemrograman Scala. Apache Spark mengakses berkas data transaksi mentah yang tersimpan pada penyimpanan HDFS pada klaster milik DSSDI UGM. Workflow mengagregasi data dengan mengelompokkan waktu transaksi setiap 60 menit. Keluaran dari agregasi data merupakan file dengan format Comma-Separated Values (CSV) yang dapat digunakan untuk visualisasi. Visualisasi data dilakukan dengan pendekatan time series menggunakan bantuan aplikasi Tableau Desktop yang dapat menyaring dan menampilkan data berdasarkan kriteria waktu transaksinya. Hasil visualisasi menunjukkan bahwa data memiliki komponen time series seperti tren dan musiman.

The development of Bus Rapid Transit (BRT) in the Special Capital Region of Jakarta triggers the BRT management company to undertake service improvement. One way to improve the service is to change the means of processing transaction data to adapt big data paradigm so the transaction data can be processed effectively. This research develops a workflow that allows BRT management company to aggregate over 164,000,000 lines of transaction data and display a form of time series visualization in order to easily obtain the information required in business decisions. Data aggregation workflow is created with the help of Apache Spark big data processing framework and uses the Scala programming language. Apache Spark accesses raw transaction data files stored in HDFS storage on cluster owned by DSSDI UGM. The workflow aggregates data by grouping the transaction time every 60 minutes. The output of data aggregation is a file with Comma-Separated Values (CSV) format that can be used for visualization. Further data visualization utilizes Tableau Desktop application that can filter and display data based on the criteria of transaction time. Visualization results showed that the transaction data contains time series components such as trends and seasons.

Kata Kunci : big data, Apache Spark, workflow agregasi data, komputasi terdistribusi, time series