Laporkan Masalah

ANALISIS SENTIMEN TWEET BERBAHASA INDONESIA DI TWITTER

PAULINA ALIANDU, Drs. Edi Winarko, Ph.D

2012 | Tesis | S2 Ilmu Komputer

Analisis sentimen adalah riset komputasional dari opini, sentimen dan emosi yang diekspresikan secara tekstual. Web melalui situs review online, blog pribadi, situs jejaring sosial menyediakan sumber-sumber opini bagi kebutuhan individu maupun organisasi. Salah satu situs jejaring sosial yang menyediakan gudang data opini adalah Twitter. Dengan fasilitas Twitter API yang dimilikinya, Twitter mampu menyediakan data terkini atas tweet yang disampaikan oleh penggunanya. Data tweet terkini ini, dapat diakses dengan query tertentu untuk menghasilkan sentimen atas query term tertentu tersebut. Penelitian ini bertujuan untuk menentukan sentimen suatu tweet berbahasa Indonesia. Untuk itu dibangun suatu aplikasi yang dapat menentukan sentimen publik yang disampaikan melalui tweet berbahasa Indonesia terhadap term objek tertentu hasil query user. Metoda yang digunakan untuk membangun model klasifikasi atas data training dalam penelitian ini adalah Metoda Naive Bayes. Untuk memudahkan penganotasian kelas sentimen dari data training maka digunakan emoticon. Data training dikumpulkan dengan memanfaatkan fasilitas crontab dengan query emoticon dan akun media nasional yang terhubung ke Twitter API. Data yang terkumpul akan melewati preprocessing tertentu sebelum dilakukan training. Fitur pembobotan yang digunakan adalah term frequency dengan laplace smoothing dan TF-IDF. Semua data yang digunakan dalam penelitian ini adalah tweet yang disampaikan dalam Bahasa Indonesia. Dari hasil implementasi diperoleh akurasi 77,45% untuk term frequency dengan laplace smoothing dan akurasi 75,86% untuk TF-IDF pada test set yang dianotasikan menggunakan emoticon. Hasil akurasi dengan test set yang dianotasikan secara manual diperoleh nilai 70,68% untuk term frequency dengan laplace smoothing dan 71,26% untuk TF-IDF. Pegukuran akurasi dilakukan juga dengan menggunakan Metoda Support Vector Machine pada RapidMiner. Hasil akurasi yang diperoleh sebesar 77,79% untuk term frequency serta 77,57% untuk TF-IDF. Akurasi yang dihasilkan oleh Metoda SVM lebih baik dari Metoda Naive Bayes.

Sentiment analysis is a computational study of opinions, sentiments and emotions expressed in text. Web from review online sites, blogs, social networks contain a large number of opinion sources for individual and organizations needs. One of social networking that contain opinion data is Twitter. With the facility that called Twitter API, Twitter be able provide recent tweets that posted by Twitter user. This recent tweets, can be accessed by query on particular term, in order to generate sentiment on particular query term. This research is aimed to build an application that can determine public sentiment on Indonesian tweet in Twitter by user query on particular object term. The method that being used in this research is Naive Bayes. The method was used to build classification model on training data. In order to make sentiment class anotation easier, emoticon has been used. Training data were collected using crontab by querying emoticon and national media accounts that linked to the Twitter API. The collected data will pass particular preprocessing before training on. Weighting features that being used are term frequency with laplace smoothing and TF-IDF. All of the data that being used in this research are tweet post in Indonesian. From the implementation results obtained an accuracy of 77,45% using term frequency with laplace smoothing and 75,86% using TF-IDF on test set that anotated by emoticons. The results of manually marked test set are 70,68% for term frequency with laplace smoothing and 71,26% for TF-IDF. Accuracy measurement also done by using Support Vector Machine in RapidMiner. The results obtained an accuracy of 77,79% using term frequency and 77,57% using TF-IDF. Accuracy that produced by Support Vector Machine Method is better than Naive Bayes Method.

Kata Kunci : analisis sentimen, klasifikasi, naive bayes, twitter


    Tidak tersedia file untuk ditampilkan ke publik.