Analisis Klaster Hierarki Menggunakan Matriks Ensemble Dissimilarity untuk Data Kategorik
Zulfa Romadhoni, Dr. Adhitya Ronnie Effendie, M.Sc.
2019 | Skripsi | S1 STATISTIKAAnalisis klaster merupakan analisis yang digunakan untuk mengelompokkan objek-objek ke dalam beberapa kelompok sehingga objek yang berada pada klaster yang sama memiliki tingkat kemiripan yang tinggi dan objek yang berada pada klaster yang berbeda memiliki tingkat kemiripan yang rendah. Pada penelitian ini, akan dipaparkan suatu metode analisis klaster untuk data kategorik, yaitu algoritma analisis klaster hierarki agglomerative menggunakan matriks ensemble dissimilarity. Matriks ketidaksamaan ini dibentuk dengan melakukan analisis klaster hierarki agglomerative menggunakan hamming distance beberapa kali, yang kemudian hasilnya digabungkan ke dalam satu matriks. Dari matriks baru ini dihitung jarak antar objek menggunakan rata-rata hamming distance, sehingga diperoleh matriks ensemble dissimilarity. Metode ini juga dapat diterapkan pada data kategorik berdimensi tinggi, dengan menerapkan teknik subspace clustering. Metode ini diaplikasikan untuk melakukan segmentasi terhadap data klaim BPJS Kesehatan, data ekspor Provinsi Jawa Tengah dan data rangkaian gen Rhabdoviridae. Diperoleh bahwa metode ini memberikan kualitas hasil clustering yang lebih baik dibandingkan dengan metode basenya.
Clustering analysis is a technique for grouping objects into some groups so that objects which are in the same cluster have a high similarity and objects which are in the different cluster have a low similarity. We present a new clustering method for categorical data, that is a hierarchical clustering algorithm using ensemble dissimilarity matrix. The ensemble dissimilarity matrix is form by generating some clusterings using hierarchical clustering algorithm and hamming distance. These clusterings are then combined into a matrix and based on this new matrix, we calculate the distance between objects using hamming distance, and so we get the ensemble dissimilarity matrix. This method can be applied to a high dimensional categorical data by applying subspace clustering technique. The method is applied to do a segmentation of BPJS Kesehatan claim data, Jawa Tengah export data, and Rhabdoviridae gene sequence data. We get that this method give a better quality of clustering than its base method.
Kata Kunci : Analisis klaster hierarki, Data kategorik, Metode ensemble, Hamming distance, Segmentasi