Algoritma KAMILA untuk Analisis Clustering pada Data Tipe Campuran
HANNY NUR HANIFAH, Prof. Dr. rer. nat. Dedi Rosadi, M. Sc.
2019 | Skripsi | S1 STATISTIKAData yang tersedia untuk diolah dapat terdiri dari campuran data bertipe kontinu dan kategorik. Pengelompokkan data tipe campuran tersebut dapat dilakukan dengan beberapa metode. Namun beberapa metode memerlukan pembobotan yang tepat antara variabel kontinu dan variabel kategorik, serta perlunya asumsi parametrik yang kuat. Algoritma KAMILA merupakan gabungan dari metode algoritma K-means dan Gaussian-multinomial mixture models, dimana nantinya algoritma KAMILA dapat menangani kelemahan dari dua metode tersebut. Selanjutnya dengan menggunakan nilai Adjusted Rand Index akan ditunjukkan bahwa algoritma KAMILA lebih baik dalam mengelompokkan data dibandingkan metode weighted K-means.
Datasets that available to process consist of mixed continuous and categorical data. There are several methods can be used for mixed data clustering analysis. We show that current clustering method need appropriate weighting between continuous and categorical data, also need strong parametric assumptions. KAMILA algorithm combines two popular methods, K-means algorithm and Gaussian-multinomial mixture models, that can handle their weakness. We show that KAMILA algorithm is better than weighted K-means method from their Adjusted Rand Index value.
Kata Kunci : Clustering, KAMILA, mixed data, data tipe campuran, K-means, Gaussian-multinomial mixture models