ALGORITMA NAIVE BAYES DAN COMPLEMENTARY NAIVE BAYES PADA HADOOP FRAMEWORK UNTUK ANALISIS SENTIMEN FILM
RININTA VITA ROSANTI, Dr. Nur Rokhman, S.Si., M.Kom
2017 | Skripsi | S1 ILMU KOMPUTERSaat ini, media sosial menjadi alat komunikasi yang sangat populer diantara pengguna internet. Setiap harinya, jutaan pengguna internet membagikan pemikiran dan opininya terhadap topik tertentu, salah satunya adalah opini mengenai film yang sedang populer. Dari opini dan ulasan film tersebut dapat dilakukan analisis sentimen apakah suatu opini termasuk ke dalam sentimen positif, negatif, atau netral. Pendekatan analisis sentimen dapat dilakukan dengan menggunakan machine learning dan algoritma klasifikasi. Algoritma Naive Bayes dan Complementary Naive Bayes merupakan metode klasifikasi yang menggunakan perhitungan probabilitas. Pada penelitian ini dilakukan implementasi algoritma Naive Bayes dan algoritma Complementary Naive Bayes, untuk melakukan analisis sentimen dan klasifikasi data tweet film berbahasa Inggris. Algoritma ini akan dijalankan di atas Apache Hadoop Framework dan menggunakan Apache Mahout sebagai machine learning library. Hasil dari penelitian ini menunjukan bahwa Algoritma Complementary Naive Bayes memiliki performa yang lebih baik dalam melakukan klasifikasi pada data yang tidak seimbang, dengan akurasi 2,57% lebih tinggi, precision 1,92% lebih tinggi, recall 2,57% lebih tinggi, dan F-measure 2,03% lebih tinggi jika dibandingkan dengan algoritma Naive Bayes.
Social media today has become a very popular communication tool among internet users. Millions of users share opinions on particular topic everyday, for example opinion about the latest popular movie. From those opinions and movie review, sentiment analysis can be done to identify whether the opinion expressed in a text is positive, negative, or neutral. Sentiment analysis approach is often done by machine learning using the classification algorithm. Naive Bayes and Complementary Naive Bayes algorithms are classification algorithms that uses a probability calculation. In this research, the implementation of Naive Bayes and Complementary Naive Bayes algorithms are used to perform sentiment analysis and data classification on english movie tweet. Those algorithms will be run on top of Apache Hadoop Framework and Apache Mahout as machine learning library. The result from this research conclude that Complementary Naive Bayes algorithm showed better performance than Naive Bayes algorithm within the classification sentiment on skewed data bias, with 2.57% higher accuracy, 1.92% higher precision, 2.57% higher recall, and 2.03% higher F-measure when compared with Naive Bayes algorithm.
Kata Kunci : analisis sentimen, klasifikasi, machine learning, naive bayes, complementary naive bayes, apache hadoop, apache mahout