Laporkan Masalah

Pemantauan Geoportal Secara Otomatis Menggunakan Crawler

SETO BARUNO, Heri Sutanta, Ph.D; Trias Aditya KM., Ph.D

2017 | Tesis | S2 Teknik Geomatika

Pemantauan kondisi dan ketersediaan data di simpul jaringan perlu dilakukan sebagai bahan evaluasi kinerja simpul jaringan dan untuk pengembangan simpul jaringan. Dalam IDS, pada umumnya informasi ketersediaan data di simpul jaringan dapat diakses melalui katalog metadata. Di Indonesia, saat ini belum terdapat katalog metadata untuk penelusuran dan pencarian informasi metadata di simpul jaringan. Hal tersebut membuat pemantauan ketersediaan data di simpul jaringan dilakukan dengan mengakses langsung repository service geoportal simpul jaringan. Pengecekan dilakukan secara manual dengan menelusuri satu persatu tautan data di geoportal. Cara tersebut memakan waktu lama, dan kesalahan dapat terjadi seperti tautan layer service terlewat dan kesalahan saat pencatatan. Untuk mengatasi permasalahan tersebut, dalam penelitian ini dibangun aplikasi pemantauan ketersediaan data di geoportal simpul jaringan menggunakan crawler. Crawler digunakan untuk menelusuri ketersediaan data di geoportal simpul jaringan dengan mengakses alamat URL web service secara terstruktur dan otomatis. Geoportal yang dipantau adalah geoportal berbasis ArcGIS REST Services dan geoportal yang menggunakan Catalog Service for the Web (CSW) standar Open Geospatial Consortium (OGC). Program crawler dibuat menggunakan library bahasa pemrograman Python untuk proses parsing keluaran HTTP request terhadap URL katalog geoportal. Library yang digunakan yaitu perangkat API arrest.py untuk geoportal berbasis ArcGIS REST Services menggunakan dan OGC Web Service Library (OWSlib) untuk geoportal CSW. Hasil dari penelitian ini adalah program crawler geoportal dan aplikasi berbasis web sebagai antarmuka. Sistem yang dibangun telah dapat mengakses dan mengetahui ketersediaan data di 26 geoportal lembaga pemerintah yang menjadi simpul jaringan. Sebanyak 5025 layer data dapat diidentifikasi informasi metadata dan status aksesnya. Pengamatan terhadap struktur katalog menunjukkan beberapa hal yang mempengaruhi hasil proses crawl yaitu penyajian informasi tanggal dan kesalahan penulisan koordinat extent. Analisis kualitas metadata pada elemen abstrak/deskripsi, kategori, dan kontak wali data menunjukkan hasil persentase isian elemen metadata abstrak/deskripsi sebesar 15,16%, kategori sebesar 15,25% dan wali data (organisasi/author) sebesar 36,26%. Terdapat isian informasi metadata yang tidak tepat dan kurang lengkap. Informasi metadata tersebut yaitu abstrak/deskripsi sebesar 12,07% dari elemen abstrak/deskripsi yang terisi dan wali data (organisasi/author) sebesar 78,4% dari elemen organisasi/author yang terisi. Hasil uji efektivitas menunjukkan akurasi identifikasi layer data di geoportal sebesar 98,43% karena sistem yang dibangun belum dapat mengidentifikasi layer service format MobileServer di ArcGIS REST Services dan sistem belum dapat menentukan data berupa web service dan data non web service. Hasil uji efisiensi menunjukkan bahwa waktu respon katalog dipengaruhi jumlah record dan kapasitas perangkat yang digunakan katalog.

Monitoring the condition and availability of data in the Spatial Data Infrastructure (SDI) needs to be done. It aims to evaluate SDI performance and for the development of SDI. Currently in Indonesia, metadata catalog for discovering and searching metadata information in the SDI is not available yet. Monitoring is done by directly accessing the geoportal service repository. Checking is done manually by tracing one by one data link in geoportal. Such approach requires more time. Errors can occur such as missing service layer links and during reporting process. In order to solve those problems, this research aims at data availability monitoring in geoportal using crawler. The crawler is used to track data availability in geoportal by accessing the web service address in a structured and automatically. Geoportals that are monitored are geoportals based on ArcGIS REST Services and geoportals that use the Open Geospatial Consortium (OGC) Catalog Service for the Web (CSW). The crawler program uses the Python programming language library to parse the HTTP request output from the geoportal URL catalog. The crawler program uses the API arrest.py for geoportals based on ArcGIS REST Services and OGC Web Service Library (OWSlib) for geoportal using CSW. The application that has been built can access and determine the availability of data from 26 geoportals government agencies in the SDI. A total of 5025 data layers can be identified of metadata information and access status. The observation of the catalog structure shows some factors that affects the results of the crawling process. These include date and incorrect coordinate extent. The percentage of metadata element content filled is 15.16% for abstract/description, 15.25% for categories and 58.29% for data custodians. From these elements, some of metadata information are incorrectly and incompletely. These include 12.07% for abstract/description and 78.4 % for data custodians (organization/author). The effectiveness test result shows the accuracy of geoportal data layer identification at 98.43%. It is because the built system has not been able to identify MobileServer service layer in ArcGIS REST Services and the system has not been able to determine the data in the form of web service and non web service data. The efficiency test results show that the response time of the catalog is influenced by the number of records and the capacity of the device used by the catalog.

Kata Kunci : geoportal, IDS, crawler, ArcGIS REST, CSW, metadata, pemantauan