Model Pelabelan Otomatis Ulasan Google Play Store Menggunakan Pemodelan Topik LDA, Soft Cosine Similarity, dan Model Pralatih PyABSA untuk ABSA
Mufti Alfarokhul Azam, Dr. Sigit Priyanta, S.Si., M.Kom.
2025 | Tesis | S2 Ilmu Komputer
Google Play Store menyediakan umpan balik yang berharga bagi pengembang untuk meningkatkan kualitas aplikasi. Namun, dengan banyaknya data mentah yang tersedia di internet, membutuhkan proses pelabelan. Pelabelan manual dalam ABSA membutuhkan biaya yang besar, baik dari segi waktu maupun sumber daya manusia. Tantangan ini mendorong perlunya metode yang lebih efisien untuk mengekstraksi aspek dan sentimen dari ulasan aplikasi secara otomatis.
Penelitian ini mengusulkan metode pelabelan otomatis dengan mengintegrasikan pemodelan topik menggunakan LDA dan NMF, serta model pre-trained PyABSA. Ekstraksi topik dilakukan pada dua jenis korpus: korpus utuh dan korpus yang hanya terdiri dari kata benda, untuk mengidentifikasi aspek utama dalam ulasan. Pelabelan topik dilakukan dengan dua pendekatan: pasangan aspek-sentimen dan aspek-saja. Eksperimen dilakukan dalam delapan skenario pelabelan yang menggabungkan metode dan pendekatan tersebut. Pelabelan sentimen dilakukan dengan memanfaatkan pretrain model PyABSA dengan label topik sebagai predefined aspect.
Hasil penelitian menunjukkan bahwa metode LDA pada korpus utuh memiliki kinerja terbaik dengan skor koherensi tertinggi sebesar 0,5528, serta secara signifikan lebih unggul dibandingkan LDA pada korpus kata benda dan NMF. Pelabelan otomatis dengan pasangan aspek-sentimen menghasilkan skor soft cosine similarity tertinggi dan menunjukkan perbedaan signifikan dibandingkan pendekatan aspek-saja dan pelabelan manual. Pemilihan threshold optimal berbeda untuk setiap pendekatan, dengan threshold 0,3 paling sering menghasilkan skor terbaik pada aspect-sentiment pair, sementara threshold 0,5 optimal untuk aspek-saja. Dari rata-rata metrik, threshold 0,4 unggul dalam aspect-sentiment pair dengan F1-score tertinggi 0,627, sedangkan threshold 0,1 terbaik untuk label aspek-saja dengan F1-score 0,551. Hasil ini menunjukkan bahwa metode yang diusulkan dapat membantu mengurangi beban pelabelan manual setidaknya 50%.
The Google Play Store provides valuable feedback for developers to improve app quality. However, with the vast amount of raw data available on the internet, a labeling process is required. Manual labeling in Aspect-Based Sentiment Analysis (ABSA) incurs high costs in terms of both time and human resources. This challenge highlights the need for a more efficient method to automatically extract aspects and sentiments from app reviews.
This study proposes an automatic labeling method by integrating topic modeling using Latent Dirichlet Allocation (LDA) and Non-Negative Matrix Factorization (NMF), as well as the pre-trained PyABSA model. Topic extraction is performed on two types of corpora: a full corpus and a corpus consisting solely of nouns, to identify the main aspects in the reviews. Topic labeling is conducted using two approaches: aspect-sentiment pairs and aspect-only. Experiments are carried out in eight labeling scenarios that combine these methods and approaches. Sentiment labeling is performed using the pre-trained PyABSA model with topic labels as predefined aspects.
The study results indicate that the LDA method on the full corpus achieves the best performance, with the highest coherence score of 0,5528, significantly outperforming LDA on noun-only corpora and NMF. Automated labeling using aspect-sentiment pairs yields the highest soft cosine similarity scores and shows significant differences compared to the aspect-only approach and manual labeling. The optimal threshold varies by approach, with a threshold of 0,3 most frequently achieving the best scores for aspect-sentiment pairs, while a threshold of 0,5 is optimal for aspect-only labeling. Based on average metrics, a threshold of 0,4 performs best for aspect-sentiment pairs with the highest F1-score of 0,627, whereas a threshold of 0,1 is superior for aspect-only labeling with an F1-score of 0,551. These findings demonstrate that the proposed method can reduce the burden of manual labeling by at least 50%.
Kata Kunci : analisis sentimen berbasis aspek, pemodelan topik, penambangan teks