Laporkan Masalah

Pengenalan Entitas Bernama Pada Teks Bahasa Indonesia Menggunakan Hidden Markov Model

MUHAMMAD FACHRI, Drs. Sri Mulyana, M.Kom.

2014 | Skripsi | ILMU KOMPUTER

Pengenalan entitas bernama merupakan salah satu subpekerjaan dari ekstraksi informasi. Pengenalan entitas bernama digunakan untuk mengenali entitas-enentias setiap elemen dalam teks yang kemudian digunakan untuk mengekstraksi informasi dari teks yang ada. Salah satu pendekatan pengenalan entitas bernama adalah menggunakan metode Hidden Markov Model dan lebih tepatnya menggunakan algoritma viterbi. Algoritma viterbi digunakan untuk mencari barisaan keaadaan yang optimal pada proses Markov yang ada. Di dalam permasalahan pengenalan entitas bernama barisan keadaan yang optimal adalah barisan entitas untuk setiap kata yang ada pada kalimat dengan state atau keadaan yang diamati adalah kelas kata. Pada penelitian ini pengenalan entitas bernama yang dibuat dikhususkan untuk digunakan pada bahasa Indonesia. Berdasarkan pengujian sistem yang telah dilakukan, pengenalan entitas bernama menggunakan metode Hidden Markov Model dengan mengobservasi kelas kata mendapatkan akurasi terbaik sebesar 88,4%. Dengan nilai recall dan precision yang didapatkan masing-masing 65,8% dan 55,9%.

Named-entity recognition is a subtask of information extraction (IE). Named-entity recognition is used to recognize entities of each element in text which is then used to extracting information from the text. One of methods that can be used in named-entity recogntion is Hidden Markov Model, and to be pricise Viterbi algorithm. Viterbi algorithm is a dynamic programming algorithm for finding the most likely sequences of hidden states in Hidden Markov Model. In named-entity recognition problem, the most likely sequences of hidden states is entity sequences and observable states is part-of-speech. In this research, named-entity recognition is specialize for Indonesian language. Based on system testing, named-entity recognition applyed Hidden Markov Model method by observing the part-of-speech of the text gave the maximum accuration 88,4% with 65,8% recall and 55,9% precision.

Kata Kunci : ekstraksi informasi, pengenalan entitas bernama, HMM, viterbi, kelas kata


    Tidak tersedia file untuk ditampilkan ke publik.