EKSTRAKSI INFORMASI HALAMAN WEB MENGGUNAKAN PENDEKATAN BOOTSTRAPPING PADA ONTOLOGY-BASED INFORMATION EXTRACTION (OBIE

Penulis

Erma Susanti

Pembimbing: Dr.techn. Khabib Mustofa, S.Si., M.Kom.


ABSTRACT: Information extraction is identification of structured information from unstructured text. Several approaches for information extraction had been developed by many researchers. This study covers semi-automatic extraction to identify NER (Named Entity Recognition) in natural language text. This research proposed a method that combined Ontology-Based Information Extraction (OBIE) with bootstrapping approach to extract web pages. The ontology was used to guide information extraction process by referring to the existing ontology concept. Bootstrapping was used to learn new facts from unlabeled text using a small number of label data (seed). A case study to apply this approach used dataset \"LonelyPlanet\" (Cimiano dkk., 2005). The performance evaluation achieved were 73% precison, 62% recall and 67% F-measure. Keywords: information extraction, NER, Named Entity Recognition, ontology, Ontology-Based Information Extraction, OBIE, bootstrapping, performance

INTISARI: Ekstraksi Informasi merupakan identifikasi informasi terstruktur dari teks tidak terstruktur. Beberapa pendekatan untuk ekstraksi informasi telah dilakukan oleh banyak peneliti. Penelitian ini berusaha menangani ekstraksi secara semi-otomatis untuk mengidentifikasi NER (Named Entity Recognition) dari teks bahasa alami. Kombinasi Ontology-Based Information Extraction (OBIE) dengan pendekatan bootstrapping diusulkan untuk mengekstraksi sekumpulan konten halaman web. Ontologi digunakan untuk memandu proses ekstraksi informasi dengan mengacu kepada konsep yang ada pada ontologi. Pendekatan bootstrapping digunakan untuk mempelajari fakta baru dari teks tidak berlabel, menggunakan sekumpulan kecil data berlabel (seed). Studi kasus untuk penerapan pendekatan tersebut menggunakan dataset \"LonelyPlanet\" (Cimiano dkk., 2005). Hasil evaluasi kinerja (performance) sistem didapatkan precision 73%, recall 62% dan F-measure 67%. Kata-kata kunci : ekstraksi informasi, NER, Named Entity Recognition, ontologi, Ontology-Based Information Extraction, OBIE, bootstrapping, kinerja

Kata kunci ekstraksi informasi, NER, Named Entity Recognition, ontologi, Ontology-Based Information Extraction, OBIE, bootstrapping, kinerja
Program Studi S2 Ilmu Komputer UGM
No Inventaris
Deskripsi
Bahasa Indonesia
Jenis Tesis
Penerbit [Yogyakarta] : Universitas Gadjah Mada, 2014
Lokasi Perpustakaan Pusat UGM
File Tulisan Lengkap dapat Dibaca di Ruang Tesis/Disertasi
  • Anda dapat mengecek ketersediaan versi cetak dari penelitian ini melalui petugas kami dengan mencatat nomor inventaris di atas (apabila ada)
  • Ketentuan Layanan:
    1. Pemustaka diperkenankan mengkopi cover, abstrak, daftar isi, bab pendahuluan, bab penutup/ kesimpulan, daftar pusatak
    2. Tidak diperbolehkan mengkopi Bab Tinjauan Pustaka, Bab Pembahasan dan Lampiran (data perusahaan/ lembaga tempat penelitian)
    3. Mengisi surat pernyataan, menyertakakan FC kartu identitas yang berlaku

<< kembali