ANALISIS KOMPARATIF PEMODELAN TOPIK BERBASIS PROBABILISTIK, NON-PROBABILISTIK, DAN NEURAL EMBEDDING SERTA INTEGRASI GENERATIVE AI UNTUK PELABELAN TOPIK
Rahma Nur Annisa, Prof. Dr. Abdurakhman, S.Si., M.Si.
2026 | Skripsi | STATISTIKA
Penelitian ini bertujuan untuk melakukan analisis komparatif terhadap metode pemodelan topik dari berbagai paradigma serta mengevaluasi integrasi Generative AI pada tahap pelabelan topik. Meningkatnya volume data teks tidak terstruktur menuntut metode analisis yang mampu mengekstraksi struktur tematik laten secara sistematis. Perbedaan paradigma pemodelan topik menghasilkan karakteristik topik yang berbeda dari sisi koherensi, keberagaman, dan interpretabilitas. Data yang digunakan berupa 10.000 ulasan pengguna aplikasi Shopee berbahasa Indonesia yang diperoleh dari Google Play Store hingga 20 Oktober 2025 dan telah melalui prapemrosesan teks. Metode yang diimplementasikan meliputi Latent Dirichlet Allocation (LDA), Non-Negative Matrix Factorization (NMF), Contextualized Topic Model (CTM), dan Bidirectional Encoder Representations from Transformers Topic Modeling (BERTopic). Evaluasi performa dilakukan menggunakan metrik topic coherence dan topic diversity. Selanjutnya, pelabelan topik dilakukan menggunakan model Generative AI Gemini Flash untuk menghasilkan label topik yang konsisten secara semantik dan kontekstual. Hasil penelitian menunjukkan bahwa model berbasis neural embedding, khususnya BERTopic, menghasilkan keseimbangan performa terbaik antara topic coherence dan topic diversity, sementara LDA dan NMF memiliki keterbatasan dalam menangkap relasi semantik kompleks meskipun tetap unggul dari sisi interpretabilitas struktur. Integrasi Generative AI terbukti meningkatkan keterbacaan interpretasi topik tanpa memodifikasi struktur topik yang dihasilkan oleh model dasar.
Kata Kunci : topic modeling, LDA, NMF, BERTopic, Generative AI, text mining