Laporkan Masalah

Klasifikasi Sentimen Menggunakan LSTM dan Embedding DISTILBERT (Studi Kasus J&T Express)

Gabriel Agape Gananputra, Dr. Sri Mulyana, M.Kom

2024 | Skripsi | ILMU KOMPUTER

Self-training, salah satu metode semi-supervised learning, sangat berguna dalam situasi di mana terdapat kekurangan data terlabel untuk tugas spesifik dan melimpahnya data yang belum terlabel. Klasifikasi sentimen dapat menjadi suatu hal yang penting, Salah satu contohnya yaitu klasifikasi sentimen  terhadap J&T Ekspress pada platform tweeter. Penelitian ini bertujuan untuk mengimplementasikan sistem klasifikasi sentimen 3 kelas untuk memproses data sentimen terhadap J&T Express dari platform tweeter dengan metode self-training dengan model LSTM dengan bantuan DistilBERT embedding. hasil klasifikasi akan diuji dengan 10 fold validation dan dianalisis menggunakan confusion matrix melalui parameter accuracy, precision, dan recall.

Pada proses pengujian penggunaan batch size yang lebih besar (16) umumnya memberikan performa yang lebih baik dibandingkan batch size yang lebih kecil (8) dalam model klasifikasi teks machine learning, dengan presisi mikro dan F1 mikro yang mencapai sekitar 49% pada learning rate 0.0001. Selain itu, teknik pra-pemrosesan seperti penghilangan stopword dan normalisasi kata juga berpengaruh terhadap performa, dengan penghilangan stopword menunjukkan sedikit keunggulan dalam meningkatkan F1 mikro. Pemilihan batch size yang optimal dan penerapan teknik pra-pemrosesan yang tepat adalah kunci untuk meningkatkan efisiensi dan akurasi model.

Self-training, one of the semi-supervised learning methods, is very useful in situations where there is a shortage of labeled data for a specific task and an abundance of unlabeled data. Sentiment classification can be particularly important; for example, classifying sentiments toward J&T Express on the Twitter platform. This study aims to implement a 3-class sentiment classification system to process sentiment data regarding J&T Express from the Twitter platform using the self-training method with an LSTM model and DistilBERT embeddings. The classification results will be tested with 10-fold validation and analyzed using a confusion matrix through accuracy, precision, and recall parameters.

During the testing process, using a larger batch size (16) generally provides better performance compared to a smaller batch size (8) in machine learning text classification models, with micro precision and micro F1 reaching around 49% at a learning rate of 0.0001. Additionally, preprocessing techniques such as stopword removal and word normalization also affect performance, with stopword removal showing a slight advantage in improving micro F1. Selecting the optimal batch size and applying appropriate preprocessing techniques are keys to enhancing the efficiency and accuracy of the model.

Kata Kunci : Distilled Bidirectional Encoder Representation from Transformers (DistilBERT), Long Short-Term Memory (LSTM), Word Embedding

  1. S1-2024-430263-abstract.pdf  
  2. S1-2024-430263-bibliography.pdf  
  3. S1-2024-430263-tableofcontent.pdf  
  4. S1-2024-430263-title.pdf