Pengenalan Entitas Bernama Pada Teks Bahasa Indonesia Menggunakan Hidden Markov Model

Penulis

Muhammad Fachri

Pembimbing: Drs. Sri Mulyana, M.Kom.


ABSTRACT: Named-entity recognition is a subtask of information extraction (IE). Named-entity recognition is used to recognize entities of each element in text which is then used to extracting information from the text. One of methods that can be used in named-entity recogntion is Hidden Markov Model, and to be pricise Viterbi algorithm. Viterbi algorithm is a dynamic programming algorithm for finding the most likely sequences of hidden states in Hidden Markov Model. In named-entity recognition problem, the most likely sequences of hidden states is entity sequences and observable states is part-of-speech. In this research, named-entity recognition is specialize for Indonesian language. Based on system testing, named-entity recognition applyed Hidden Markov Model method by observing the part-of-speech of the text gave the maximum accuration 88,4% with 65,8% recall and 55,9% precision.

INTISARI: Pengenalan entitas bernama merupakan salah satu subpekerjaan dari ekstraksi informasi. Pengenalan entitas bernama digunakan untuk mengenali entitas-enentias setiap elemen dalam teks yang kemudian digunakan untuk mengekstraksi informasi dari teks yang ada. Salah satu pendekatan pengenalan entitas bernama adalah menggunakan metode Hidden Markov Model dan lebih tepatnya menggunakan algoritma viterbi. Algoritma viterbi digunakan untuk mencari barisaan keaadaan yang optimal pada proses Markov yang ada. Di dalam permasalahan pengenalan entitas bernama barisan keadaan yang optimal adalah barisan entitas untuk setiap kata yang ada pada kalimat dengan state atau keadaan yang diamati adalah kelas kata. Pada penelitian ini pengenalan entitas bernama yang dibuat dikhususkan untuk digunakan pada bahasa Indonesia. Berdasarkan pengujian sistem yang telah dilakukan, pengenalan entitas bernama menggunakan metode Hidden Markov Model dengan mengobservasi kelas kata mendapatkan akurasi terbaik sebesar 88,4%. Dengan nilai recall dan precision yang didapatkan masing-masing 65,8% dan 55,9%.

Kata kunci ekstraksi informasi, pengenalan entitas bernama, HMM, viterbi, kelas kata
Program Studi ILMU KOMPUTER UGM
No Inventaris
Deskripsi
Bahasa Indonesia
Jenis Skripsi
Penerbit [Yogyakarta] : Universitas Gadjah Mada, 2014
Lokasi Perpustakaan Pusat UGM
File Tulisan Lengkap dapat Dibaca di Ruang Tesis/Disertasi
  • Anda dapat mengecek ketersediaan versi cetak dari penelitian ini melalui petugas kami dengan mencatat nomor inventaris di atas (apabila ada)
  • Ketentuan Layanan:
    1. Pemustaka diperkenankan mengkopi cover, abstrak, daftar isi, bab pendahuluan, bab penutup/ kesimpulan, daftar pusatak
    2. Tidak diperbolehkan mengkopi Bab Tinjauan Pustaka, Bab Pembahasan dan Lampiran (data perusahaan/ lembaga tempat penelitian)
    3. Mengisi surat pernyataan, menyertakakan FC kartu identitas yang berlaku

<< kembali