INVESTIGATE PART OF SPEECH TAGGING PERFORMANCE USING COMBINATION OF CLINICAL TEXT CORPORA

AKMAL NOVIZAR

AKMAL NOVIZAR, Lukman Heryawan, S.T., M.T

2015 | Skripsi | S1 ILMU KOMPUTER

Abstrak
File Pdf

Part of Speech (POS) tagging berperan penting dalam beberapa ruang lingkup Natural Language Processing. Beberapa pendekatan dan metode telah di kembangkan untuk automatisasi pemberian label kata dalam teks dengan part-of-speech tag untuk Bahasa Inggris dan beberapa Bahasa yang berada di kawasan barat. Dari hal tersebut, penelitian ini dilakukan untuk meng-investigasi performa POS tagging melalui pendekatan metode stochastic, seperti N-Gram tagger (Unigram, Bigram, dan Trigram tagger) yang di applikasikan terhadap teks yang berbasis pelayanan klinik yang berasal dari Electronic Health Record (EHR). Disisi lain, beberapa pendapat menyatakan sebuah supervised POS tagging membutuhkan pelatihan corpus dengan jumlah besar untuk dapat memberikan label atau tag dengan baik dan benar. Untuk itu dengan mencoba meng-investigasi dengan penelitian ini diharapkan dapat mengerti bagaimana performa POS tagging dipengaruhi oleh sumber yang terbatas pada corpora dan di implementasikan dalam beberapa scenario optimisasi data: Intra-institution, Inter-institution, dan Mix-institution. Pada penelitian ini menggunakan pelatihan corpus yang ter-anotasi berjumlah 10 catatan klinik dari Beth Medical Center dan jumlah yang sama dari Partners HealthCare yang mana pelatihan corpus di anotasi secara manual tanpa seorang ahli apakah dari ahli Bahasa Inggris maupun ahli medis. Akan tetapi, hasil dari penelitian menunjukan semua N-gram tagger yang di applikasikan dalam scenario yang berbeda menunjukkan Mix-institution dengan 10 intra-institution cross-validation dan combined tagger yang dapat menggabungkan semua N-gram tagger secara bersamaan memberikan hasil tagging yang lebih baik saat di uji pada kedua sumber corpora dari catatan klinik dengan estimasi akurasi lebih dari 84 %. dan memberikan manfaat saat proses pelatihan pada POS tagger.

Part of Speech (POS) tagging is important in various areas of Natural Language Processing. There are different approaches or methods that have been developed to automate the problem of assigning each words or tokens of a text with part-of-speech tag for general English and Western languages. Therefore, this research conducted to investigate POS tagging performance based on stochastic approach, such as N-Gram tagger (Unigram, Bigram and Trigram tagger) applied in clinical-text domain. In other hand, it was believed a supervised POS tagging requires a large amount of annotated training corpus to tag properly. To investigate it, this research performed experiments to understand how POS tagging performance could also affected with limited resources of available corpora which was implemented in different scenario of data optimization following with: Intra-institution, Inter-institution, and Mix-Institution. This research utilize annotated training corpus consisting of ten clinical notes from Beth Medical Center and equal size of Partners HealthCare that were manually annotated the training corpus without knowledgeable expert from English linguist and Medical expert. Although, the results from all N-gram taggers applied in different scenario shows Mix-institution with 10 intra-institution cross-validation and also combined tagger that allows chain all N-gram taggers together does best tagging in both clinical-text corpora by estimated an accuracy of 84 % tested on Beth and Partners corpus that could benefitted the training process of POS taggers.

Kata Kunci : Natural Language Processing, POS tagging, N-Gram Tagger, clinical-text

S1-2015-315558-abstract.pdf
S1-2015-315558-bibliography.pdf
S1-2015-315558-tableofcontent.pdf
S1-2015-315558-title.pdf

LAYANAN

E-Resources

Quick Access