Analisis Sentimen Berbasis Lexicon dan Emoticon
NURIRWAN SAPUTRA, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D. ; Adhistya Erna Permanasari, S.T., M.T., Ph.D.
2015 | Tesis | S2 Teknik ElektroJokowi merupakan tokoh fenomenal Indonesia yang jenjang karirnya sangat cepat dari mulai Walikota Solo tahun 2005 hingga menjadi presiden Republik Indonesia periode 2014-2019, tentunya seorang Jokowi pun tidak luput dari pandangan masyarakat yang positif maupun negatif. Dalam politik di Indonesia, manajemen reputasi dibutuhkan untuk melakukan analisis dan langkah-langkah yang harus diambil seorang tokoh politik untuk mendapatkan kepercayaan dari masyarakat. Untuk itu perlu adanya data mengenai tokoh Jokowi yang berisikan komentar positif , netral dan negatif yang berasal dari media sosial dan blog politik. Selain itu data yang sudah didapat perlu dievaluasi untuk menunjukkan urgensi diimplementasikannya preprocessing terhadap data, misalnya normalisasi, stemming, penggunaan stopwords, penggunaan emoticon dan penggunaan lexicon apakah lebih baik diimplementasikan seluruhnya atau tidak. Analisis sentimen merupakan ilmu yang berguna untuk menganalisis pendapat seseorang, sentiment seseorang, evaluasi seseorang, sikap seseorang dan emosi seseorang ke dalam bahasa tertulis. Penelitian ini menggunakan search techniques dalam pengambilan data, sehingga pengambilan data dilakukan dengan efektif dan efisien. Search techniques dalam penelitian ini menggunakan Boolean searching dengan operator "AND". Data yang sudah didapat dilabeli positif, netral dan negatif oleh penulis kemudian dikoreksi oleh ahli bahasa. Setelah itu dilakukan preprocessing baik itu mengubah kata tidak baku menjadi baku atau biasa disebut normalisasi menggunakan kamus, mencari akar kata yaitu stemming dengan bantuan aplikasi Sastrawi Master, dan ubah lexicon menjadi sebuah kata dengan menggunakan kamus. Selanjutnya dilakukan juga tokenisasi N-Gram, Unigram, Bigram, dan Trigram terhadap kalimat, kemudian menghilangkan kata-kata yang umum digunakan dan tidak mempunyai informasi yang berharga pada suatu konteks atau biasa disebut stopword removal, dan mempertahankan emoticon karena emoticon merupakan simbol yang menunjukkan ekspresi seseorang. Akurasi yang terbaik dalam penelitian ini adalah kombinasi antara lexicon dan emoticon dengan token Unigram sebesar 91,5254% menggunakan metode SVM, kemudian diikuti dengan akurasi yang didapat dengan dilakukan normalisasi dan stemming pada data sebesar 89,2655% menggunakan metode SVM, dan kemudian data yang dinormalisasi saja sebesar 88,7006% menggunakan metode SVM. Untuk penggunaan stopword dan emoticon, hasil yang terbaik pada penelitian ini adalah penggunaan emoticon saja dengan akurasi paling tinggi sebesar 90,4%, kemudian dilanjutkan dengan penggunaan emoticon dan stopword dengan akurasi tertinggi sebesar 89,3, dan diikuti dengan penggunaan stopword saja dengan akurasi sebesar 88,1%. Dengan teknik Boolean searching tidak hanya memudahkan dalam pencarian, tetapi juga dapat membantu dalam memperoleh data yang baik. Selain itu dengan mengkombinasikan emoticon dan pemanfaatan kamus untuk mengubah lexicon menjadi hanya sebuah kata dapat memberikan akurasi yang lebih baik lagi.
Jokowi is a phenomenal figure of Indonesia, start from Mayor of Solo in 2005 to become president of the Republic Indonesia periode 2014 to 2019. Jokowi has not immune both from positive public view and negative public view. In politics, reputation management is needed to analysis and steps that must be taken by a political figure to gain the trust of the community. Thats why the data containing positif, neutral and negative comments to Jokowi from social media and political blog is needed. In addition, the data that has been obtained should be evaluated to know the urgency of the implementation preprocessing of the data, such as normalization, stemming, stopwords removal, emoticons and lexicon better use entirely or not. Sentiment analysis is a study for analyzing opinion, sentiment, evaluation, a person's attitude and emotions into a written language. This research uses search techniques in collecting the data effectively and efficiently using Boolean searching with the operator "AND". Collected data are labelled positive, neutral and negative by writer and corrected by linguist expert. After that, preprocessing the data such as normalization the data using the dictionary, stemming using Sastrawi Master to find the root of the word, and change the lexicon into a word using the dictionary. Tokenization the data to N-Gram, Unigram, Bigram and Trigram, and then eliminate words that are commonly used and do not have valuable information in a context or so called stopword removal, and maintain emoticons that is a symbol that indicates someone expression. The best accuracy in this study is a combination of lexicon and emoticons with Unigram token has 91,5254% using SVM, followed by the accuracy with the normalization and stemming the data has 89,2655% using SVM, and then the data were normalized only has 88,7006% and also using SVM. The best results using stopword and emoticons in this study is using emoticons only with the highest accuracy has 90,4%, followed by the use of emoticons and stopword with the highest accuracy has 89,3, and was followed by the use of a stopword only with the highest accuracy has 88,1%. Boolean searching not only facilitate the search, but also can help in obtaining good data, in addition to combining emoticon and use a dictionary to change the lexicon becomes a word can give better accuracy.
Kata Kunci : sentiment analysis, sastrawi master, lexicon, emoticon, svm, smo, naive bayes