Laporkan Masalah

KLASIFIKASI AYAT AL-QURAN MENGGUNAKAN DATA SINTESIS CITRA MFCC

ANNISA KHODISTA S, Ir. Noor Akhmad Setiawan, S.T., M.T., Ph.D., IPM.;Ir. Oyas Wahyunggoro, M.T., Ph.D.

2022 | Tesis | MAGISTER TEKNOLOGI INFORMASI

Al-Quran adalah kitab suci umat islam yang ditulis dalam bahasa arab. Kitab ini merupakan salah satu bagian terpenting dalam kehidupan umat muslim. Umat muslim dapat membaca Al-Quran sebagai suatu langkah awal untuk memahami petujuk dan aturan yang ada didalamnya. Suara pembaca yang berbeda ketika membaca Al-Quran menjadi salah satu dorongan untuk mengembangkan proses klasifikasi ayat. Terdapat beberapa tantangan dalam proses klasifikasi Al-Quran menggunakan suara pembaca. Kurangnya data untuk proses klasifikasi ayat Al-Quran, khususnya data citra MFCC. Selain itu, distribusi data pada setiap ayat cenderung mengalami data imbalance. Berangkat dari permasalahan tersebut, penelitian ini menggunakan sumber data lain untuk mengatasi data imbalance. Untuk meningkatkan potensi model pembelajaran, penelitian ini memerlukan data yang lebih banyak. Berdasarkan hal itu, diperlukannya data sintesis dalam proses klasifikasi ayat Al-Quran. Penelitian ini membuktikan bahwa data citra MFCC dapat digunakan untuk klasifikasi ayat Al-Quran. Data citra MFCC dapat diproses menggunakan Metode CNN untuk identifikasi ayat Al-Quran dan Model generative Pix2Pix untuk menghasilkan data sintesis. Data sintesis mampu mengatasi data imbalance, dengan 1.000 citra sintesis pada setiap ayat. Selain itu, data sintesis berpotensi untuk digunakan dalam proses klasifikasi ayat Al-Quran. Hal ini ditunjukan oleh rata-rata akurasi evaluasi menggunakan data sintesis sebesar 38%. Nilai rata-rata akurasi evaluasi data sintesis lebih tinggi dibandingkan menggunakan data asli, yaitu data citra asli sebesar 22% dan data vektor asli menggunakan Metode ANN sebesar 37%.

Al-Quran is the holy book of Muslims written in Arabic. This book is one of the most important parts in the life of Muslims. Muslims can read Al-Quran as a first step to understand the instructions and rules in it. The different voices of readers when reading Al-Quran became one of the impetuses for developing the verse classification process. There are several challenges in the process of classifying Al-Quran using the voice of the reader. Lack of data for the process of classifying Al-Quran verses, especially MFCC image data. In addition, the distribution of data in each verse tends to experience imbalanced data. Departing from these problems, this study uses other data sources to overcome imbalance in data. To increase the potential of the learning model, this research requires more data. Based on this, it is necessary to uses synthetic data in the process of classifying the verses of the Qur'an. This study proves that the MFCC image data can be used for the classification of Al-Quran verses. MFCC image data can be processed using the CNN method for identification of Al-Quran verses and the Pix2Pix generative model to generate synthetic data. Synthetic data is able to overcome imbalance data, with 1,000 synthetic images in each verse. In addition, the synthetic data has the potential to be used in the process of classifying Al-Quran verses. This is indicated by the average accuracy of the evaluation model using synthetic data of 38%. The average value of the evaluation accuracy of synthetic data is higher than using the original data, namely the original image data is 22% and the original vector data using the ANN method is 37%

Kata Kunci : Klasifikasi Ayat Al-Quran, Data Imbalance, MFCC, Pix2Pix, CNN, ANN