Laporkan Masalah

SELF-ASSIGNMENT DATA MANAGEMENT PADA ALOKASI SUMBER DAYA UNTUK PUSAT DATA

MARDHANI RIASETIAWAN, Dr.techn. Ahmad Ashari, M.Kom, S.Si; Dr. Irwan Endrayanto A, S.Si, M.Sc

2017 | Disertasi | S3 Ilmu Komputer

Pusat Data memiliki fungsi sebagai penyedia infrastruktur dalam penyelenggaraan layanan berbasis internet dengan menyediakan sumber daya fisik berupa server, jaringan, kapasitas penyimpanan, dukungan listik dan manajemen pengaturan layanan. Pusat Data beroperasi untuk menyediakan layanan yang reliable dan berkinerja tinggi dalam jangka waktu yang tertentu. Operasional Pusat Data dipengaruhi oleh permintaan layanan dari pengguna (O�Brien et.al, 2013), kapasitas infrastruktur (Teng, 2012), dan tujuan operasionalnya (Srinidhi, 2014). Pada penelitian ini dilakukan pengembangan metode identifikasi task/jobs dengan memanfaatkan metadata (Self-Assignment Data Management), yang dapat digunakan oleh komponen workflow Pusat Data untuk menentukan alokasi sumber daya. Proses identifikasi dilakukan terhadap task/jobs berupa file submission dengan jenis Document, Image, Audio, dan Video. Metode SADM terdiri atas proses metadata extraction dengan FITS, identifikasi dan klasifikasi dengan match-aggregate-pipeline, dan menghasilkan informasi metadata berupa XML. Komponen workflow pada Pusat Data diatur kembali untuk menyesuaikan dengan SADM yang terdiri atas task management, resource capacity managament, komunikasi dan transisi, dan interaksi. Pada penelitian ini dilakukan pengujian pada data sebesar 59 TB yang dijalankan pada arsitektur kluster (GamaCloud) dengan XenServer Platform, Grid (LIPI), dan High Performance Computing (VSC-02). Pengujian yang dilakukan pada penelitian ini, dengan menguji pada beban puncak dengan file migration dengan metode KVM dan OpenVZ. Evaluasi yang dilakukan pada penelitian adalah membandingkan metode yang digunakan pada ekstraksi metadata (JHOVE, DROID, NLNZ ME, ExifTool, FileUNity, dan FFIdent, proses identifikasi dan klasifikasi membandingkan antara match-aggregate-pipeline dengan MapReduce untuk pemrosesan data besar. Evaluasi untuk arsitektur Pusat Data baik kluster, grid dan HPC dilakukan dengan membandingkan kinerja CPU, penggunaan memori, dan MIPS baik pada konfigurasi dynamic dan dedicated. Pada beban puncak dilakukan perbandingan metode SADM dengan penelitian Teng (2012), Yu (2007), Garg (2010), Pandey (2010), Sedaghat (2016) untuk migration time, delivery time, packet loss, disk speed dan network. Metode SADM berhasil mengidentifikasi task/jobs berdasarkan metadata dari file submission dengan menggunakan FITS, match-aggregate-pipeline, dan menghasilkan XML yang berisi informasi berdasarkan parameter volume, variety, veracity dan velocity. Pengujian dilakukan pada metode ektraksi metadata dengan JHOVE, DROID, NLNZ ME, ExifTool, FileUNity, dan FFIdent didapatkan hasil kemunculan parameter metadata merata untuk semua metode ekstraksi. Komponen workflow Pusat Data diatur dengan menambahkan sub komponen task identification pada komponen task management. Pengujian yang dilakukan pada konfigurasi dedicated dan dynamic terdapat peningkatan kinerja ketika menggunakan metode SADM pada kinerja CPU, kapasitas memory, dan MIPS. Peningkatan kinerja juga didapatkan pada pengujian dengan arsitektur kluster (GamaCloud), Grid-LIPI dan VSC-02 yang menunjukkan konsistensi pada arsitektur yang berbeda. Metode SADM memiliki kinerja yang lebih baik pada pemrosesan data dengan pengaturan ukuran block size yang besar. Pada beban puncak file migration, metode SADM memiliki kinerja kecepatan disk dan network dengan shared storage yang lebih cepat dari Penelitian Yu (2007), Garg (2010), Pandey (2010). Metode SADM memiliki kinerja yang relatif sama dengan Penelitian Sedaghat (2016) dan kinerja terbaik pada Penelitian Teng (2012).

Data center infrastructure providers have a function in the operation of Internet-based services by providing physical resources such as servers, networks, storage capacity, electric, and management to support services arrangements. Data center operations to provide reliable and high performance for a period. The services affected by the service requests by the users (O'Brien et.al, 2013), the capacity of the infrastructure (Teng, 2012), and its operational objectives (Srinidhi, 2014). The research develops the methods of task/jobs identification by utilizing the metadata (Self-Assignment Data Management), which can use the Data Center workflow components of to determine the resources allocation. The identification process carried out on a task/jobs in the form of file submission with the type of Document, Image, Audio, and Video. SADM method consists of metadata extraction process with FITS, identification, and classification with a match-aggregate-pipeline, and generate metadata information in the form of XML. Data Center workflow components are consisting of task management, resource capacity management, communication and transition, and interaction. In this study conducted testing on the 59 TB data that run on cluster architecture (GamaCloud) with XenServer platform, Grid (LIPI), and High-Performance Computing (VSC-02). The tests has conducted with a peak load test on the file migration by using KVM and OpenVZ. The performance test performed for evaluation of the extraction methods (JHOVE, DROID, NLNZ ME, ExifTool, FileUNity, and FFIdent). The identification and classification of comparing the match-aggregate-pipeline with MapReduce for processing large data. Evaluation cluster, grid, and HPC architecture by comparing the performance of CPU, memory usage, and MIPS both on the configuration of dynamic and dedicated. The peak load test carried comparison method SADM with research by Teng (2012), Yu (2007), Garg (2010), Pandey (2010), Sedaghat (2016) for migration time, delivery time, packet loss, disk and network speed. SADM method has successfully identified task/jobs based on the metadata for the file submission using FITS, match-aggregate-pipeline, and generating XML that contains information based on the parameters of volume, variety, and velocity veracity. In our tests, metadata extraction method with JHOVE, DROID, NLNZ ME, ExifTool, FileUNity, and FFIdent showed the emergence of metadata parameters above all equitable for all methods. Data Center workflow component was adjusted adding sub-component task identification element. Tests have shown either for a dedicated and dynamic configuration demonstrate improved performance when using SADM on CPU performance, memory capacity, and MIPS. The performance has improved with cluster architecture (GamaCloud), Grid-LIPI and VSC-02 that shows consistency on different architectures. SADM method has better performance in processing data in the larger block size compared to MapReduce. The peak load in file migration, the method SADM has a performance in disk and network with shared storage that is faster than Yu (2007), Garg (2010), Pandey (2010). SADM method has similar performance with Sedaghat (2016) and the best performance on Teng (2012).

Kata Kunci : Data Center, Self-Assignment Data Management, SADM, Metadata, Workflow, Cluster, Grid, HPC, CPU performance, memory, MIPS

  1. S3-2017-356465-abstract.pdf  
  2. S3-2017-356465-bibliography.pdf  
  3. S3-2017-356465-tableofcontent.pdf  
  4. S3-2017-356465-title.pdf