Laporkan Masalah

GAN INDOBERT: Generative Adversarial Learning for Emotion Classification with Limited Labeled Data on Indonesian Tweets

Norman Muhammad Mikhail, Dzikri Rahadian Fudholi, S.Kom., M.Comp.

2023 | Skripsi | ILMU KOMPUTER

Melakukan tugas klasifikasi emosi pada platform media sosial populer seperti Twitter menggunakan metode pembelajaran mesin memerlukan data pelatihan dalam jumlah besar untuk mencapai akurasi tinggi. Dalam banyak skenario, khususnya dalam konteks tugas klasifikasi emosi dalam bahasa Indonesia, pengadaan akses terhadap data berlabel berkualitas tinggi terbukti mahal dan memakan waktu. Salah satu solusi yang tepat untuk tantangan ini adalah dengan memprioritaskan pengumpulan data yang tidak berlabel, yang relatif lebih mudah untuk dikumpulkan. Makalah ini mengusulkan pendekatan pembelajaran semi-supervisi untuk meminimalkan ketergantungan pada data berlabel sambil tetap memastikan kinerja yang terpuji dalam tugas klasifikasi. Secara khusus, kami memperkenalkan model GAN IndoBERT yang dirancang untuk mengklasifikasikan emosi dalam teks bahasa Indonesia. Hasil kami menyoroti performa model yang unggul di berbagai ambang batas ketersediaan data berlabel. Khususnya, bahkan dengan hanya 1?ta yang diberi label, GAN IndoBERT mencapai akurasi 47%, melampaui kinerja IndoBERT tradisional dengan selisih yang cukup besar. Temuan tersebut menggarisbawahi potensi pengintegrasian jaringan permusuhan generatif dengan model pembelajaran mendalam, memastikan kinerja optimal dalam skenario dengan data terbatas

Performing emotion classification tasks on popular social media platforms such as Twitter using machine learning methods necessitates a vast amount of training data to achieve high accuracy. In many scenarios, particularly in the context of emotion classification tasks in the Indonesian language, procuring access to high-quality labeled data proves to be both expensive and time-consuming. One viable solution to this challenge is to prioritize the collection of unlabeled data, which is comparatively easier to amass. This paper proposes a semi-supervised learning approach to minimize the dependency on labeled data while still ensuring commendable performance in classification tasks. Specifically, we introduce the GAN IndoBERT model designed to classify emotions in Indonesian text. Our results highlight the model's superior performance across varying thresholds of labeled data availability. Notably, even with as little as 1% of labeled data, GAN IndoBERT achieved 47?curacy, outstripping the traditional IndoBERT's performance by a substantial margin. Such findings underscore the potential of integrating generative adversarial networks with deep learning models, ensuring optimal performance in data-limited scenarios

Kata Kunci : Emotion Classification, Semi-supervised Learning, Generative Adversarial Networks, GAN IndoBERT, Indonesian Text, Data Augmentation, Machine Learning, Social Media Analysis

  1. S1-2023-444313-abstract.pdf  
  2. S1-2023-444313-bibliography.pdf  
  3. S1-2023-444313-tableofcontent.pdf  
  4. S1-2023-444313-title.pdf