NOURMA REIZKY D, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D. ; Widyawan, S.T., M.Sc., Ph.D.


Dewasa ini, pengguna media sosial di Indonesia semakin meningkat seperti pada media sosial Twitter. Dengan banyaknya komunikasi melalui Twitter tersebut, perusahaan telekomunikasi yang pada awalnya berfokus pada layanan pesan singkat kini beralih pada layanan yang mendukung kecepatan akses internet. Untuk meningkatkan pelayanannya, perusahaan telekomunikasi perlu mengetahui opini dari masyarakat. Banyak masyarakat yang menyalurkan opini mereka terhadap perusahaan telekomunikasi melalui Twitter. Opini tersebut dapat digunakan sebagai bahan analisis sentimen yang merupakan metode penggalian opini pada suatu teks. Maka dari itu, pada penelitian ini digunakan data tweet terkait perusahaan telekomunikasi di Indonesia sebagai dataset untuk analisis sentimen. Analisis sentimen terdiri dari proses pre-processing, pembobotan fitur, klasifikasi dan evaluasi. Proses pre-processing dan pembobotan fitur merupakan proses penting yang dapat mempengaruhi performa dari algoritma klasifikasi yang diterapkan. Berbagai macam penelitian telah dilakukan terkait proses pre-processing dan pembobotan fitur untuk mengetahui pengaruhnya terhadap performa algoritma klasifikasi. Akan tetapi, belum terdapat penelitian yang membandingkan pengaruh metode pembobotan fitur yang dikombinasikan dengan tokenisasi fitur N-Gram pada teks bahasa Indonesia. Maka dari itu, penelitian ini akan membandingkan performa algoritma klasifikasi Support Vector Machine yang dikombinasikan dengan tokenisasi fitur N-Gram dan berbagai metode pembobotan fitur. Metode pembobotan fitur yang digunakan adalah TF-IDF,TF-CHI,TF-RF dan TF-OR. Berdasarkan metode-metode pembobotan fitur yang digunakan, TF-IDF memiliki rata-rata performa tertinggi yaitu 69,1% untuk akurasi, 92,1% untuk recall dan 77,3% untuk f1-score. Sedangkan rata-rata presisi tertinggi yaitu pada metode pembobotan fitur TF-RF dengan nilai 68,5%. Performa tersebut juga dipengaruhi oleh penggunaan metode tokenisasi fitur N-Gram.

Recently, social media users in Indonesia are increasing as in social media Twitter. With so much communication through Twitter, telecommunication companies that initially focus on short messaging services are now shifting to services that support internet access speed. To improve its services, telecommunication companies need to know opinions from the public. Many people are channeling their opinions on telecommunication companies through Twitter. The opinion can be used as a sentiment analysis material which is a method of extracting opinion on a text. Therefore, in this study used tweet data related telecommunication companies in Indonesia as a dataset for the analysis of sentiment. The sentiment analysis consist of pre-processing, term weighting, classification and evaluation. The process of preprocessing and term weighting is an important process that can affect the performance of the applied clssification algorithm. Various studies have been done related to the preprocessing process and weighting feature to know the effect on the performance of the classification algorithm. However, there have been no studies comparing the performance of term weighting methods combined with feature tokenization of N-Gram in Indonesian text. Therefore, this study will compare the performance of Support Vector Machine classification algortihm that combined with N-Gram feature tokenization and term weighting method. The feature weighting methods used are TF-IDF, TF-CHI, TF-RF and TF-OR. Based on the feature weighting methods used, TF-IDF has the highest average performance of 69.1% for accuracy, 92.1% for recall and 77.3% for f1-score. While the highest average precision is on the weighting method features TF-RF with a value of 68.5%. The performance is also influenced by the use of the N-Gram feature tokenisasi method.

Kata Kunci : Analisis Sentimen, Twitter, Pembobotan Fitur, N-Gram

