COMPARATIVE STUDY OF WEAK LABELLING AND MANUAL LABELLING IN INDONESIAN NATURAL DISASTER TWEETS CLASSIFICATION USING SUPPORT VECTOR MACHINE AND LONG SHORT-TERM MEMORY

Muhammad Arkan Alireza

Muhammad Arkan Alireza, Drs. Edi Winarko M.Sc., Ph.d

2023 | Skripsi | ILMU KOMPUTER

Abstrak
File Pdf

Penelitian ini menjelajahi klasifikasi cuitan bencana alam, sebuah topik yang telah banyak diteliti sebelumnya. Namun, penelitian sebelumnya tidak mengatasi tantangan utama dalam pembelajaran berbimbing: kebutuhan akan dataset labeling besar, yang memakan waktu dan tenaga untuk dibuat. Untuk mengatasi masalah ini, kami mengusulkan sebuah solusi menggunakan metode supervisi lemah. Meskipun supervisi lemah telah dijelajahi dalam penelitian sebelumnya, namun belum diterapkan khusus untuk konteks bencana alam. Kami percaya bahwa supervisi lemah dapat sangat berguna untuk melatih dataset terkait pemahaman dan tanggapan darurat dalam situasi yang mengharuskan waktu cepat.

Dalam penelitian kami, kami mengadopsi pendekatan Supervisi Tidak Lengkap, memanfaatkan dataset awal yang kecil untuk membangun dataset pelatihan yang lebih besar. Kami menggunakan Generator Fungsi Label dengan fungsi program berbasis kueri untuk membangun dataset pelatihan tersebut. Untuk mengevaluasi efektivitas metode supervisi lemah kami, kami membandingkannya dengan pembelajaran berbimbing menggunakan LSTM dan SVM sebagai pengklasifikasi.

Temuan kami menunjukkan bahwa, meskipun pembelajaran berbimbing unggul dalam hal performa, mencapai angka 93% dibandingkan angka 90?ri supervisi lemah pada SVM, terdapat keuntungan lain yang harus dipertimbangkan. Secara khusus, metode supervisi lemah kami memungkinkan kami untuk melabeli jumlah dataset yang jauh lebih besar, sekitar 26.000 dibandingkan dengan 6.000 dataset yang diberi label melalui pembelajaran berbimbing. Meskipun terdapat perbedaan dalam performa, keuntungan-keuntungan ini membuat pendekatan supervisi lemah menjadi alternatif yang layak dipertimbangkan.

This thesis explores the classification of natural disaster tweets, a topic that has been extensively researched in the past. However, previous studies did not address a key challenge in supervised learning: the need for large labeling datasets, which are time-consuming and laborious to create. To address this issue, we propose a solution using a weak supervision method. While weak supervision has been explored in previous research, it has not been applied specifically to the context of natural disasters. We believe that weak supervision can be particularly useful for training datasets related to understanding and emergency response in time-critical situations.

In our research, we adopt an Incomplete Supervision approach, leveraging a small initial dataset to construct a larger training dataset. We utilize a Labeling Function Generator with a query-based programmatic function to build the training dataset. To evaluate the effectiveness of our weak supervision method, we compare it with supervised learning using LSTM and SVM as classifiers.

Our findings indicate that, although supervised learning outperforms weak supervision in terms of performance, achieving a 93% figure compared to weak supervision's 90% figure in SVM, there are other advantages to consider. Specifically, our weak supervision method allows us to label a significantly larger number of datasets, approximately 26,000 compared to the 6,000 datasets labeled through supervised learning. Despite the performance gap, these advantages make the weak supervision approach a viable alternative.

Kata Kunci : NLP, weak supervision, natural disaster, text classification, twitter, SVM, LSTM

S1-2023-440454-abstract.pdf
S1-2023-440454-bibliography.pdf
S1-2023-440454-tableofcontent.pdf
S1-2023-440454-title.pdf

LAYANAN

E-Resources

Quick Access