Authorship Profiling Tweet Berbahasa Indonesia Berdasarkan Fitur Stylometry Menggunakan Support Vector Machine (SVM)
Azhara Fathin, Yunita Sari, S.Kom., M.Sc., Ph.D; Muhammad Oriza Nurfajri, S.Kom., M.IT.
2025 | Skripsi | ILMU KOMPUTER
Peningkatan penggunaan media sosial sebagai sarana ekspresi diri telah membuka peluang baru dalam penelitian authorship profiling, khususnya dalam mengidentifikasi ciri demografis seperti gender melalui gaya penulisan. Penelitian ini bertujuan untuk membangun model klasifikasi gender pengguna Twitter berbahasa Indonesia berdasarkan fitur linguistik dan stilometrik yang terkandung dalam tweet. Metode yang digunakan menggabungkan fitur stylometry seperti jumlah karakter, rasio huruf kapital, jumlah tanda baca, emoji, panjang kata rata-rata, jumlah stopwords, dan kata ganti orang dengan representasi teks berbasis Term Frequency-Inverse Document Frequency (TF-IDF). Data diproses melalui tahapan pembersihan dan penghapusan stopwords menggunakan pustaka Sastrawi, lalu digunakan sebagai masukan pada algoritma Support Vector Machine (SVM). Evaluasi dilakukan terhadap berbagai kombinasi fitur untuk menentukan konfigurasi optimal, dengan akurasi terbaik mencapai 61,9%. Selain itu, analisis topik dengan Latent Dirichlet Allocation (LDA) mengungkap perbedaan tematik dalam tweet berdasarkan gender. Hasil penelitian menunjukkan bahwa fitur emoji dan panjang karakter menjadi indikator dominan, serta terdapat kecenderungan penggunaan bahasa ekspresif dan code-switching pada pengguna perempuan. Penelitian ini menegaskan bahwa kombinasi fitur stilometrik dan leksikal efektif dalam profiling gender berbasis teks pendek berbahasa Indonesia.
The increasing use of social media as a medium for self-expression has opened new opportunities in authorship profiling research, particularly in identifying demographic traits such as gender through writing style. This study aims to develop a gender classification model for Indonesian Twitter users by leveraging linguistic and stylometric features extracted from tweets. The proposed method combines stylometric features such as character count, capital letter ratio, punctuation count, emoji usage, average word length, stopword count, and pronoun count with Term Frequency-Inverse Document Frequency (TF-IDF) text representation. Preprocessing includes text cleaning and stopword removal using the Sastrawi library, followed by classification using the Support Vector Machine (SVM) algorithm. Feature combination evaluations were performed to find the optimal configuration, with the best accuracy reaching 61.9%. Additionally, topic modeling using Latent Dirichlet Allocation (LDA) revealed thematic differences in tweets by gender. The findings highlight emoji usage and character length as dominant indicators and show that female users tend to use more expressive and code-switched language. This study affirms the effectiveness of combining stylometric and lexical features in text-based gender profiling for the Indonesian language.
Kata Kunci : klasifikasi gender, stylometry, TF-IDF, SVM, LDA, analisis teks