Laporkan Masalah

PENINGKATAN KECEPATAN PENCARIAN K- NEAREST NEIGHBOUR BERBASIS CLUSTERING PADA DIALEK BAHASA MINANG

RORY FLORENSA, Dr. Yohanes Suyanto, M.Kom

2021 | Tesis | MAGISTER ILMU KOMPUTER

Klasifikasi dialek bahasa berdasarkan suara penutur merupakan salah satu bidang penelitian yang mengembangan metode klasifikasi dalam dialek bahasa daerah. Sistem pengenalan dapat menjadi faktor pendukung untuk mengklasifikasikan dialek dengan mengukur tingkat kesamaan penutur dalam mengidentifikasi identitas penutur. Klasifikasi dialek menggunakan KNN berbasis clustering bertujuan mempercepat pengklasifikasian dengan strategi pengelompokan data. Pencarian pengelompokan data dilakukan untuk mencapai cluster terdekat yang dibentuk menggunakan metode Density-Based Spartial Clustering of Application with Noise (DBSCAN) dan menemukan tetangga terdekat di dalam cluster yang dipilih. Namun untuk menghindari menurunnya akurasi karena ketidakseimbangan distribusi kelas data di setiap cluster, digunakan metode pengembangan K-Nearest Neighbour (KNN) minority class untuk meningkatkan bobot kelas minoritas pada cluster. Hasil pengujian performa klasifikasi dialek bahasa minang dengan menggunakan KNN berbasis clustering dengan nilai minimum minpts > 2 menunjukan nilai akurasi terbaik yaitu 88.3% dibandingkan KNN konvensional tanpa clustering yaitu 84.1%. Sedangkan untuk waktu komputasi pada KNN minority class lebih unggul dengan waktu 0.026 detik dan KNN konvensional tanpa clustering yaitu 0.034 detik.

Classification of language dialects based on the speaker's voice is one of the fields of research that develops classification methods in language dialects. The recognition system can be a supporting factor for classifying dialects by measuring the level of similarity of speakers in identifying the identity of speakers. Dialect classification using clustering-based KNN aims to accelerate classification with data grouping strategies. The seek for data clustering is carried out to reach the closest cluster formed using the Density-Based Spatial Clustering of Application with Noise (DBSCAN) method and find the closest neighbors in the selected cluster. However, to avoid decreasing accuracy due to the imbalance in the distribution of data classes in each cluster, the minority class K-Nearest Neighbor (KNN) development method is utilized to extend the weight of the minority class within cluster. The results of testing the performance of Minang language dialect classification using KNN based-clustering with a minimum value of minpts > 2 show the best accuracy value is 88.3% compared to conventional KNN without clustering, which is 84.1%. Meanwhile, the computational time for KNN minority class is 0.026 seconds and conventional KNN without clustering is 0.034 seconds.

Kata Kunci : Minang Dialect, KNN, Minority class, DBSCAN, Cluster