Laporkan Masalah

PENGEMBANGAN METODE NAMED-ENTITY RECOGNITION (NER) BERBASIS NAIVE BAYES CLASSIFIER DAN ONTOLOGI UNTUK HALAMAN WEB PARIWISATA TIDAK TERSTRUKTUR

KHURNIAWAN EKO S, Dr. Sri Suning Kusumawardani, ST., MT.;Dr. Eng Silmi Fauziati, ST., M.T.

2017 | Tesis | S2 Teknik Elektro

Pariwisata merupakan salah satu dari industri utama yang memberikan pendapatan domestik terbesar untuk negara. Dengan berkembangnya persebaran informasi pariwisata yang sangat masif beberapa tahun terakhir memunculkan sebuah kebutuhan baru untuk menemukan informasi tersembunyi, dalam hal ini informasi pariwisata yang tersemat dalam ulasan destinasi sebagai artikel di internet. Salah satu informasi yang dapat diperoleh yaitu informasi entitas melalui sistem Named-Entity Recognition (NER). Informasi tersebut memiliki banyak manfaat seperti peningkatan efisiensi query, peningkatan laju bisnis dan sebagai pendukung keputusan bagi berbagai pihak yang terlibat di bidang pariwisata. Penelitian ini ditujukan untuk membangun sebuah sistem NER yang mudah diimplementasikan dan mengukur performa sistem tersebut. Permasalahan yang diangkat yaitu NER pada domain web pariwisata Indonesia berbahasa Inggris dengan mengembangkan algoritme Naive Bayes Classifier sebagai metode supervised learning yang diimplementasi dengan ontologi. Sumber data yang digunakan yaitu laman web berbahasa Inggris yang membahas destinasi wisata Indonesia secara acak dan merupakan hasil pencarian menggunakan Google Search. Laman web tersebut kemudian diolah menggunakan teknik Natural Language Processing (NLP) untuk menemukan kandidat-kandidat named-entity. Uji coba ekstraksi informasi untuk Named-Entity Recognition telah dilakukan dan menunjukkan performa baik menggunakan dataset uji yang telah dibuat. Hasil uji coba classifier NER menggunakan 10-fold cross validation menghasilkan akurasi sebesar 84%, presisi sebesar 86%, recall sebesar 83% dan pengukuran performa secara keseluruhan menggunakan f-score sebesar 82%. Rancangan taksonomi ontologi yang digunakan untuk menyimpan pengetahuan lokasi wisata telah teruji konsisten menggunakan Hermit reasoner. Pada tahap implementasi, aliran informasi populasi ontologi dapat diatur dengan menggunakan nilai threshold. Pengujian yang dilakukan dengan nilai threshold sebesar 0,8 menghasilkan tingkat ekstraksi informasi benar sebesar 95,83%.

Tourism is one of the major industries which provide the largest domestic revenue for the state. With the massive spread of tourism information at the past few years gave rise to a new need to find the hidden informations, in this case tourism information embedded in the destinations review as an article on the Internet. The information can be obtained through Named-Entity Recognition (NER) systems. Such information has many benefits such as improved query efficiency, increased pace of business and as a decision support for the various parties involved in tourism. This study aimed to establish a NER system that is easy to implement and measures the proposed system performances. The system done by developing Naive Bayes classifier as a supervised learning method and implemented it with ontology for Indonesian tourism at English articles. The used data source was web pages that discuss Indonesian tourist destinations at which is the randomly result of searches using Google Search. Then the pages were processed using the techniques of Natural Language Processing (NLP). The test result for NER have shown good performance. By using 10-fold cross validation to measure the classifier performance, the test result obtained is 84% of accuracy, 86% of the precision, 83% of the recall and overall performance measurement using the f-score is 82%. The ontology taxonomy design used to store the knowledge of tourist destinations has been tested consistently using the Hermit reasoner. Ontology population information flow can be adjusted by using threshold value at the implementation stage. By adjusting threshold to 0.8 point gives the correct information extraction level to 95.83%.

Kata Kunci : ekstraksi informasi, NER, klasifikasi naive bayes, ontologi, pariwisata