Laporkan Masalah

KLASIFIKASI KATEGORI BERITA DAN IDENTIFIKASI TRENDING TOPIK BERITA DARI TWEET BERBAHASA INDONESIA DI TWITTER

AHSANAWATI, Drs. Edi Winarko, M.Sc., Ph.D.

2017 | Tesis | S2 Ilmu Komputer

Keberadaan Twitter yang telah digunakan secara luas oleh berbagai lapisan masyarakat merupakan media yang dapat merepresentasikan apa yang sedang menjadi tren pembicaraan di masyarakat luas. Trending topic merupakan salah satu fitur atau layanan pada twitter yang dapat memberikan informasi mengenai topik terhangat atau informasi terbaru saat ini. Pengkategorian trending topic pada twitter hanya berdasarkan pada nama negara dan kotanya, sehingga pengguna twitter tidak mendapatkan informasi trending topic khusus pada portal berita. Trending topik berdasarkan rubrik berita, akan lebih memudahkan user untuk mengetahui perkembangan terkini dalam dunia politik, ekonomi, hukum, dan olahraga. Naive bayes classifier merupakan pendekatan yang mengacu pada teorema bayes yang mengkombinasikan pengetahuan sebelumnya dengan pengetahuan baru. Naive Bayes merupakan salah satu algoritma klasifikasi yang sederhana namun memiliki akurasi yang tinggi. Untuk itu, dalam penelitian ini akan dibuktikan kemampuan naive bayes classifier untuk mengklasifikasikan data tweet ke dalam rubrik berita. Proses pertama yang dilalui oleh data tweet adalah preprocessing lalu diklasifikasikan, setelah itu menghitung nilai kemunculan kata pada disetiap tweet menggunakan tf-idf. Nilai atau skor yang diperoleh dari tf-idf akan digunakan untuk menentukan trending topik. Trending topik diperoleh dengan melihat nilai atau skor dari term atau tiap kata pada dokumen dan banyaknya jumlah retweet dari tweet serta jumlah follower dari akun news. Pengujian akurasi sistem yang dilakukan menghasilkan nilai akurasi terkecil sebesar 68% dengan sampel 500 data dan data testing 50 data, sampel 1000 data menghasilkan nilai akurasi 82% dengan data testing 100 data, dan 1500 data sampel dengan nilai akurasi 85% dengan data testing 150 data. Hasil pengujian running time preprocessing adalah 1,42 detik, sedangkan pengujian waktu trending topik dibutuhkan waktu rata-rata hingga 47,56 detik untuk memproses data sebanyak 1.214 kata. Jumlah kata yang semakin besar akan mempengaruhi waktu yang diperlukan untuk menghasilkan trending topik.

Twitter has been used extensively by various segments of society. Hence, it can be a media that represent trending issues in public. Trending topic is one feature or service on twitter that can provide information on the hottest topics or latest update today. Categorizing trending topic on twitter just based on the name of the country and his city. The Twitter user does not receive information on news portal. Ternding topic based on news section will make it easier for user to find actual news on politic, economy, laws, and sport. Naive Bayes classifier is an approach that refers to the Bayes theorem which combines prior knowledge with new knowledge. Naive Bayes classification algorithm is one that is simple but has a high accuracy. Therefore, in this study will be proven ability Naive Bayes classifier to classify the data tweet into the news sections. The first process through which the data preprocessing tweet is then classified, after it calculates the value of occurrence of the word in each tweet using tf-idf. The high score obtained from the tf-idf would be used to determine the trending topics. Trending topics obtained by looking at the value or score of a term or each word in the document and the number of tweets ReTweet well as the number of followers of the news accounts. Accuracy testing systems that do produce value accuracy of the smallest of 68% with a sample of 500 data and the data of testing 50 data, sampled in 1000 the data yielded accuracy value of 82% with the data testing 100 data, and 1500 sample data with accuracy values 85% with the data testing 150 Data , The test results preprocessing running time was 1.42 seconds, while testing takes time trending topics on average up to 47.56 seconds to process the data as much as 1,214 words. The greater the number of words will affect the time required to produce a trending topic.

Kata Kunci : Twitter, trending topik, real time, tweet, retweet, news, follower, naive bayes classifier, Tf-Idf, klasifikasi, akurasi.