Laporkan Masalah

Pemodelan Topik Tweet Vaksin Covid-19 di Indonesia Menggunakan Kluster Embeddings From Language Models (ELMO) dengan Class-Based TF-IDF

MASTI FATCHIYAH MAHARANI, Afiahayati S.Kom., M.Cs., Ph.D

2023 | Tesis | S2 Ilmu Komputer

Kehadiran vaksin COVID-19 ramai dibicarakan oleh berbagai kalangan masyarakat Indonesia salah satunya melalui media sosial twitter. Banyaknya opini dan berita yang dibagikan oleh para pengguna twitter menjadikannya sulit untuk menemukan topik utama yang sedang dibahas. Salah satu metode yang dapat mengatasi permasalah ini adalah pemodelan topik. 

Pemodelan topik merupakan metode yang berguna untuk menganalisis dan menemukan topik tersembunyi dalam sebuah kumpulan dokumen seperti halnya kumpulan tweet. Saat ini, penelitian tentang pemodelan topik pada tweet berbahasa Indonesia telah banyak dilakukan dengan dominasi penggunaan algoritma Latent Dirichlet Allocation (LDA). Namun, algoritma ini masih memiliki keterbatasan dalam menangkap unsur semantik dan konteks kalimat 

Pada penelitian ini dilakukan pemodelan topik pada tweet berbahasa Indonesia dengan cara mengintegrasikan antara Embeddings from Languange Models (ELMo) dengan algoritma klustering K-Means. ELMo digunakan untuk mengekstraksi fitur tweet. Sementara algoritma K-Means digunakan untuk mengelompokkan tweet berdasarkan kemiripannya. Representasi topik ditentukan dengan mencari nilai bobot kata menggunakan metode class-based TF-IDF. Berdasarkan hasil evaluasi topik, didapatkan model dapat melampaui performa LDA dengan skor koherensi mencapai 0.085 dan 412.55955744 detik untuk waktu eksekusi. 



Indonesians have widely discussed the COVID-19 vaccine on Twitter. The sheer number of opinions and news Twitter shares makes finding the main topics being discussed difficult. One method that can overcome this problem is topic modeling.

Topic modeling is a useful method for analyzing and finding hidden topics in collections of documents such as collections of tweets. Nowadays, research on topic modeling in Indonesian tweets has been carried out predominantly by the Latent Dirichlet Allocation (LDA) algorithm. However, this algorithm still has limitations in capturing semantic elements and the context of sentences.

In this research, topic modeling has been applied in Indonesian tweets by integrating Embeddings from Language Models (ELMo) with the K-Means clustering algorithm. ELMo is used to extract tweet features. Meanwhile, the KMeans algorithm is used to cluster tweets based on their similarities. Topic representation is determined by finding the word weight value using the classbased TF-IDF method. Based on the topic evaluation results, the model shows the outperformers of LDA based on coherence scores of 0.085 and 412.55955744 seconds for execution time.



Kata Kunci : ELMo, K-Means, class based TF-IDF, pemodelan topik

  1. S2-2023-466422-abstract.pdf  
  2. S2-2023-466422-bibliography.pdf  
  3. S2-2023-466422-tableofcontent.pdf  
  4. S2-2023-466422-title.pdf