Laporkan Masalah

KLASIFIKASI TWEET SPAM DAN VALID MENGGUNAKAN SELEKSI FITUR CHI SQUARE DAN ALGORITMA NAIVE BAYES CLASSIFIER PADA TWEET BERBAHASA INDONESIA

DERTA ISYAJORA RAKHMAN, Aina Musdholifah, M.Kom., Ph.D.

2016 | Skripsi | S1 ILMU KOMPUTER

Pengguna Twitter bebas untuk mengirimkan tweet dengan isi konten yang beragam, termasuk tweet spam. Salah satu aplikasi yang memanfaatkan Twitter API adalah JalananYogya. JalananYogya adalah platform crowdsourcing yang mampu mengumpulkan laporan jalan rusak di Yogyakarta dari masyarakat melalui Twitter. Untuk menjaga integritas data JalananYogya, diperlukan sebuah sistem yang dapat melakukan filtering terhadap tweet valid dan tweet spam. Sebagai langkah awal dalam pembuatan sistem spam filtering, akan dilakukan pengujian terhadap algoritma klasifikasi yang potensial. Fokus penelitian ini adalah untuk melakukan evaluasi performa algoritma Naive Bayes Classifier untuk mengklasifikasikan tweet yang dipadukan dengan seleksi fitur Chi Square untuk meningkatkan performa. Metode yang digunakan dalam penelitian ini adalah Multinomial Naive Bayes Classifier dan Bernoulli Naive Bayes Classifier. Berdasarkan pengujian yang dilakukan, akurasi terbaik dihasilkan oleh sistem yang menggunakan Naive Bayes Classifier model Multinomial yang dipadukan dengan seleksi fitur Chi Square, yakni 95 %.

Twitter users have no limitation to send any tweet that contain diversified information, including spam. JalananYogya is one of the application that use that feature. JalananYogya is crowdsourcing platform that leverages community participation to report damaged roads in Yogyakarta using Twitter. To maintain JalananYogya data integrity, system that can perform filtering on valid report and spam report is required. As a first step in making spam filtering system, potential classification algorithms will be tested. The focus of this research was to evaluate the performance of Naive Bayes Classifier algorithm to classify tweet combined with Chi Square feature selection to improve performance. The method used by this reasearch is Multinomial Naive Bayes Classifier and Bernoulli Naive Bayes Classifier. Based on the tests performed, 95 % is the best accuracy produced by systems that have been built on this research. That system using Multinomial Naive Bayes Classifier methods combined with Chi Square feature selection.

Kata Kunci : Twitter, JalananYogya, Tweet, Spam, Naive Bayes Classifier, Chi Square

  1. S1-2016-356738-abstract.pdf  
  2. S1-2016-356738-bibliography.pdf  
  3. S1-2016-356738-tableofcontent.pdf  
  4. S1-2016-356738-title.pdf