ANALISIS SENTIMEN TWITTER UNTUK TEKS BERBAHASA INDONESIA DENGAN MAXIMUM ENTROPY DAN SUPPORT VECTOR MACHINE

NOVIAH DWI PUTRANTI

NOVIAH DWI PUTRANTI, Drs. Edi Winarko, M.Sc., Ph.D

2013 | Tesis | S2 Ilmu Komputer

Abstrak
File Pdf

Analisis sentimen dalam penelitian ini merupakan proses klasifikasi dokumen tekstual ke dalam dua kelas, yaitu kelas sentimen positif dan negatif Data opini diperoleh dari jejaring sosial Twitter berdasarkan kueri dalam Bahasa Indonesia. Penelitian ini bertujuan untuk menentukan sentimen publik terhadap objek tertentu yang disampaikan di Twitter dalam bahasa Indonesia, sehingga membantu usaha untuk melakukan riset pasar atas opini publik. Data yang sudah terkumpul dilakukan proses prepocessing dan POS tagger untuk menghasilkan model klasifikasi melalui proses pelatihan. Teknik pengumpulan kata yang memiliki sentimen dilakukan dengan pendekatan berdasarkan kamus, yang dihasilkan dalam penelitian ini berjumlah 18.069 kata. Algoritma Maximum Entropy digunakan untuk POS tagger dan algoritma yang digunakan untuk membangun model klasifikasi atas data pelatihan dalam penelitian ini adalah Support Vector Machine. Fitur yang digunakan adalah unigram dengan fitur pembobotan TFIDF.Implementasi klasifikasi diperoleh akurasi 86,81 % pada pengujian 7 fold cross validation untuk tipe kernel Sigmoid. Pelabelan kelas secara manual dengan POS tagger menghasilkan akurasi 81,67%.

Sentiment analysis in this research classified textual documents into two classes, positive and negative sentiments. The data were obtained from query of tweets in Twitter, a social networking site. This research studied Indonesian tweets. The study aimedtodetermine public sentiment toward particular object presented inTwitter using Indonesian for the market research on the public opinion. The data collected were prepocessed and POStagger to generate classification models through the training process. The method of collecting sentimental words was committed by using approach of dictionary created in the study. The dictionary consisted of 18.069 words. Maximum Entropy algorithm is used for POStagger. The algorithm used to build the classification model on the training data is Support Vector Machine. The unigram feature used is unigram with TFIDF valuation. Classification implementation obtained 86,81 % of accuracy at test of 7-fold cross validation for the type of Sigmoid kernel. Manual class labeling with POS tagger gained 81,67 % of accuracy.

Kata Kunci : analisis sentimen, klasifikasi, maximum entropy POS tagger, support vector machine, twitter.

Tidak tersedia file untuk ditampilkan ke publik.

LAYANAN

E-Resources

Quick Access