Comparison of Naive Bayes Classifier in Application of Flesch Kincaid on BSE-Kemendikbud as The Gold-Standard Data Set
SARAH FADHILA PUTRI, Drs. Bambang Nurcahyo Prastowo, M. Sc. ; Diyah Utami Kusumaning Putri, S.Kom., M.Sc., M.Cs.
2021 | Skripsi | S1 ILMU KOMPUTERBuku sangat penting sebagai media pembelajaran antara siswa dan guru. Kementerian Pendidikan dan Kebudayaan (Kemendikbud) telah menyediakan buku-buku dalam bentuk elektronik yang dapat diunduh oleh setiap siswa dan dikenal dengan Buku Sekolah Elektronik Kemendikbud (BSE-kemendikbud). Buku-buku yang telah disediakan diklasifikasikan dan ditunjuk sesuai dengan kelas masing-masing dari kelas 1-12 dari SD hingga SMA. Penelitian ini bertujuan untuk mengukur tingkat keterbacaan buku-buku yang disediakan oleh Kementerian Pendidikan dan Kebudayaan (Kemendikbud) dengan menggunakan rumus Flesch Kincaid dan dengan bantuan metode Machine Learning. Pada penelitian ini dilakukan klasifikasi kesulitan buku dan mengklasifikasikan buku mana yang mudah atau sulit dengan menggunakan rumus Flesch Kincaid untuk mencari skor keterbacaan dan akan dilakukan perbandingan dengan kedua model tersebut. Model pertama menggunakan rumus Flesch Kincaid untuk mencari skor dan memberi label pada data menggunakan threshold yang mengikuti ketentuan dari rumus pada tabel Flesch Kincaid Reading Ease. Model kedua akan dimodifikasi untuk menemukan threshold baru untuk proses pelabelan data. Kedua model tersebut akan diklasifikasikan menggunakan Gaussian Naive Bayes dan Multinomial Naive Bayes yang akan dibandingkan. Hasil klasifikasi pada model pertama menggunakan Gaussian Naive Bayes menunjukkan akurasi 100% dan menggunakan Multinomial Naive Bayes sebesar 97.5%. Model kedua menggunakan Gaussian Naive Bayes dengan akurasi sebesar 74.8% dan menggunakan Multinomial Naive Bayes menunjukkan akurasi sebesar 75.6%. Hyperparameter tuning digunakan pada kedua model dan kedua klasifikasi dalam upaya untuk mengoptimalkan akurasi yang diperoleh. Dengan hasil akurasi pada model pertama menggunakan Gaussian Naive Bayes mendapatkan akurasi sebesar 100% dan model pertama menggunakan Multinomial Naive Bayes mendapatkan akurasi sebesar 100%. Model kedua menggunakan Gaussian Naive Bayes mendapatkan akurasi 98.3% dan model kedua menggunakan Multinomial Naive Bayes mendapatkan akurasi 79.8%.
Books are very important as a learning medium between students and teachers. The ministry of education and culture (Kemendikbud) has provided books in electronic form that can be downloaded by every student and is well-known as Buku Sekolah Elektronik Kemendikbud (BSE-kemendikbud). The books that have been provided are classified and designated according to the respective classes from the grade 1-12 from Elementary to High School. This research purpose is to measure the readability levels of the books that are provided by The Ministry of Education and Culture (Kemendikbud) using the Flesch Kincaid formula and with the help of a machine learning method. In this research, a book difficulty classification is carried out and classifies which books are Easy or Hard by using the Flesch Kincaid formula to find a score of the readability and this will do a comparison with the two models. The first model uses the Flesch Kincaid formula to find the score and to label the data using a threshold that follows the provisions of the Flesch Kincaid Reading Ease Table formula. The second model will be modified to find a new threshold for the data labeling process. Both models will be classified using Gaussian Naive Bayes and Multinomial Naive Bayes which will be compared. The result of classification on the first model using Gaussian Naive Bayes showed the accuracy of 100% and using the Multinomial Naive Bayes is at 97.5%. The second model using Gaussian Naive Bayes is at the accuracy of 74.8% and using Multinomial Naive Bayes showed the accuracy at 75.6%. Hyperparameter tuning is used in both models and both classifications in an attempt to optimize the accuracy obtained. With accuracy results on the first model using Gaussian Naive Bayes got the accuracy at 100% and first model using Multinomial Naive Bayes got the accuracy of 100%. The second model using Gaussian Naive Bayes got an accuracy of 98.3% and the second model using Multinomial Naive Bayes got an accuracy of 79.8%.
Kata Kunci : BSE-Kemendikbud, Flesch Kincaid, Gaussian Naive Bayes, Multinomial Naive Bayes, Text Classification.