UKURAN JARAK BARU (NEW DISSIMILARITY) DALAM ALGORITMA CLUSTERING K-MODES
HAQIQI HARDANDY, Yunita Wulan Sari, S.Si., M.Sc.;Vemmie Nastiti Lestari, S.Si., M.Sc.
2017 | Skripsi | S1 STATISTIKAK-modes merupakan salah satu teknik dalam analisis klaster yang merupakan perluasan dari algoritma k-means untuk mengelompokkan data kategorik. Analisis algoritma k-modes memodifikasi pengukuran jarak k-means standar menggunakan ukuran jarak kecocokan sederhana (simple matching dissimilarity), namun pengukuran jarak tersebut menghasilkan kesamaan dalam klaster yang lemah karena tidak mempertimbangkan frekuensi relatif dari nilai atribut masing-masing klaster. Penelitian ini membahas pengukuran jarak sederhana dengan pengukuran jarak yang telah diperbaharui. Pengukuran jarak baru memperhitungkan frekuensi relatif dari nilai atribut masing-masing klaster. Selain untuk memperbaharui formula menghitung jarak dalam k-modes, pengukuran jarak baru bertujuan membuktikan objek masuk dalam keanggotaan klaster memiliki kehomogenan yang kuat. Hasil klaster yang terbentuk lebih merepresentasikan jarak sebenarnya dan menghasilkan kesamaan di dalam klaster yang lebih kuat sehingga hasil klaster lebih akurat.
K-modes algorithm is one of cluster analysis as an extension of k-means algorithm to classify the categorical objects. The k-modes algorithm modifies the measure of standard k-means distance using simple matching dissimilarity, but it yields such weak similarity in cluster because it does not consider the relative frequency of the attribute value in each cluster. This research aims to describe the simple matching dissimilarity measure and the new dissimilarity measure. The new dissimilarity measure considers calculating on the relative frequency of the attribute value in each cluster. It is not only to update the formula of calculating the distance in k-modes, but also to prove that the objects entered as the member of each cluster have the strong homogeneous. This methode results in a better clustering accurary because the result represents the distance of objects to central cluster for more real and has stronger similarity in cluster.
Kata Kunci : algoritma k-modes, analisis klaster, data kategorik