Laporkan Masalah

INCREMENTAL LEARNING UNTUK OPINION MINING PADA TWEET BERBAHASA INDONESIA MENGGUNAKAN DATA STREAM TWITTER

FAJRI WIRYAWAN, Drs. Edi Winarko, M.Sc., PhD.

2014 | Skripsi | ILMU KOMPUTER

Twitter merupakan layanan micro-blogging yang sangat cepat berkembang. Pengguna Twitter sering kali menuliskan opini melalui akun Twitter miliknya. Salah satu metode komputasi yang dapat dilakukan untuk mengekstraksi opini yang terdapat dalam tweet adalah opinion mining. Akurasi merupakan salah satu alat ukur dalam opinion mining. Akurasi pada proses opinion mining dapat ditingkatkan dengan menambahkan jumlah corpus. Pada opinion mining untuk tweet, jumlah corpus dapat ditingkatkan menggunakan data stream Twitter. Salah satu metode pengolahan data stream adalah incremental learning. Pengolahan data stream Twitter menggunakan incremental learning diharapkan dapat meningkatkan akurasi sehingga terjadi self-improvement. Pada penelitian ini, dibandingkan dua metode incremental learning yaitu full concept memory dan full concept memory dengan menggunakan perbandingan akurasi. Pada setiap metode akan digunakan algoritma Multinomial Naive Bayes, Binarized Multinomial Naive Bayes, dan Multi-variate Bernoulli Naive Bayes. Setiap metode akan melakukan pembaruan concept description setelah n data diterima. Pada penelitian ini digunakan n = 1, 25, 50, 75, 100, 250, 500, dan 750. Perbandingan akan dilakukan dengan menggunakan akurasi metode terhadap 250 data pengujian serta waktu pemrosesan 15.000 data stream sebagai alat ukur. Perbandingan metode incremental learning menghasilkan bahwa kedua metode incremental learning yang dibandingkan menghasilkan akurasi yang relatif meningkat. Algoritma Binarized Multinomial Naive Bayes memberikan akurasi terbaik pada setiap metode incremental learning dan setiap nilai n. Nilai akurasi terbaik diperoleh sebesar 80,4% dengan menggunakan algoritma Binarized Multinomial Naive Bayes, metode full concept memory dengan perbandingan akurasi, dan nilai n = 25. Waktu pemrosesan untuk algoritma Multinomial Naive Bayes dan Binarized Multinomial Naive Bayes pada kedua metode incremental learning dan setiap nilai n tidak memberikan perbedaan yang cukup besar kecuali pada n = 1. Algoritma Multi-variate Bernoulli Naive Bayes memberikan waktu pemrosesan yang paling lama untuk setiap metode incremental learning dan setiap nilai n. Waktu pemrosesan paling lama adalah sekitar 36 jam dengan menggunakan algoritma Multi-variate Bernoulli Naive Bayes, metode full concept memory dengan perbandingan algoritma, dan nilai n = 1.

Twitter is a micro-blogging service that grow very fast. Twitter users often write their opinion using their account. Opinion mining is one computation method for extracting opinion from a tweet. Accuracy is an evaluation tool in opinion mining. Accuracy in opinion mining can be improved by increasing corpus size. In opinion mining for a tweet, corpus size can be increased using Twitter data stream. Incremental learning can be used to process data stream. Processing data stream using incremental learning are expected to improve the accuracy so resulting self-improvement. On this research, two incremental learning method will be compared, full concept memory and full concept memory with accuracy comparison. For each method, Multinomial Naive Bayes, Binarized Multinomial Naive Bayes, and Multi-variate Bernoulli Naive Bayes will be used. Each method will upgrade the concept description after n data is received. This research will use n = 1, 25, 50, 75, 100, 250, 500, and 750. Comparison will be done by using accuracy for 250 test data and process time for 15.000 data stream as evaluation tool. Comparison of incremental learning method resulting that both methods of incremental learning produce relatively increasing accuracy. Binarized Multinomial Naive Bayes produce best accuracy in both methods of incremental learning and all n value. The best accuracy is 80.4% using Binarized Multinomial Naive Bayes, full concept memory with accuracy comparison, and n = 25. Process time for Multinomial Naive Bayes and Binarized Multinomial Naive Bayes in both methods of incremental learning and all n value is not very different except for n = 1. Multi-variate Bernoulli Naive Bayes produce the longest process time for both methods of incremental learning and all n value. The longest process time is about 36 hours using Multi-variate Bernoulli Naive Bayes, full concept memory with accuracy comparison, and n = 1.

Kata Kunci : -


    Tidak tersedia file untuk ditampilkan ke publik.