Laporkan Masalah

Perbandingan Analisis Klaster Menggunakan Kmeans dan Genetic Algorithm on Kmeans (GA-Kmeans)

Arum Shelly Rahma, Dr. Drs. Gunardi, M.Si.

2023 | Skripsi | STATISTIKA

Kmeans merupakan metode dalam analisis klaster yang mudah untuk diimplementasikan. Salah satu kelemahan dari kmeans adalah hasil klaster yang tidak konsisten dan selalu berubah-ubah. Hal ini disebabkan karena nilai centroid awal kmeans yang ditentukan secara acak sehingga menghasilkan centroid akhir yang berbeda-beda di setiap perulangan. Oleh karena itu, kualitas kmeans sangat bergantung terhadap nilai centroid awal. Salah satu metode pencarian nilai centroid yang optimal adalah algoritma genetika. Algoritma ini dikembangkan dari teori evolusi Darwin dan menerapkan prinsip-prinsip genetika dalam proses pencariannya, seperti seleksi, pindah silang, dan mutasi. Metode ini diterapkan untuk menggerombolkan produk minuman Starbucks UK pada musim semi (Februari-Mei 2023) berdasarkan kandungan nutriennya. Parameter yang digunakan dalam algoritma genetika adalah jumlah populasi sebanyak 100, jumlah generasi sebesar 100, teknik seleksi turnamen, teknik pindah silang dua titik dengan probabilitas 0,75, dan teknik mutasi Gaussian dengan probabilitas 0,001. Pada penelitian ini, kmeans dengan nilai centroid awal yang ditentukan oleh algoritma genetika atau GA-Kmeans lebih baik dan konsisten dibandingkan kmeans dengan centroid awal acak, dibuktikan dengan nilai SSE dan Davies Bouldin Index yang lebih rendah serta nilai silhouette dan Calinski Harabaz yang lebih tinggi. Namun, keterbatasan dari metode GA-Kmeans adalah waktu komputasi yang lebih tinggi dibandingkan kmeans.

Kmeans is a method in cluster analysis that is easy to implement. One of the drawbacks of kmeans is that the cluster results are not consistent and always changing. This is due to the initial centroid value kmeans is determined randomly so as to produce a final centroid different for each iteration. Therefore, the quality of the kmeans is highly dependent to the initial centroid value. One method of searching for centroid values optimal is the genetic algorithm. This algorithm is developed from the theory of evolution Darwin and applied genetic principles in his search process, such as of selection, crossover, and mutation. This method is applied to cluster Starbucks UK beverage products in the spring (February-May 2023) based on nutrient content. Parameters used in the genetic algorithm is the total population of 100, the number of generations of 100, the selection technique tournament, a two-point crossover technique with a probability of 0,75, and a mutation technique Gaussian with a probability of 0,001. In this study, kmeans with initial centroid values determined by the genetic algorithm or GA-Kmeans is better and consistent compared to kmeans with random initial centroids, evidenced by lower SSE and Davies Bouldin Index and higher Silhouette and Calinski Harabasz score. However, the limitation of the GA-Kmeans method is the higher computation time compared to kmeans.

Kata Kunci : analisis klaster, kmeans, algoritma genetika, centroid

  1. S1-2023-439208-abstract.pdf  
  2. S1-2023-439208-bibliography.pdf  
  3. S1-2023-439208-tableofcontent.pdf  
  4. S1-2023-439208-title.pdf