Laporkan Masalah

METODE K-MEDOIDS PADA DATA DENGAN PENCILAN

ANNISA LARASATI, Dr. Abdurakhman, M.Si.

2017 | Skripsi | S1 STATISTIKA

Analisis klaster adalah metode statistika multivariat yang bertujuan untuk mengelompokkan objek-objek yang memiliki kemiripan karakteristik ke dalam suatu klaster. K-means merupakan metode analisis klaster dengan menggunakan mean sebagai pusat klasternya. Namun, mean tidak robust terhadap adanya pencilan, sehingga algoritma k-means sangat sensitif terhadap data yang mengandung pencilan. Untuk mengatasi hal tersebut, dapat digunakan metode k-medoids untuk mengelompokkan data yang mengandung pencilan. Medoid merupakan objek yang letaknya terpusat di dalam suatu klaster, sehingga robust terhadap adanya pencilan. Metode k-medoids yang popular digunakan adalah Partitioning Around Medoids (PAM). Pada analisis klaster, objek-objek dikelompokkan berdasarkan kemiripannya. Untuk mengukur tingkat kemiripan tersebut digunakan ukuran jarak, yaitu jarak Euclidean dan jarak Manhattan. Selanjutnya, untuk mengetahui kualitas hasil analisis klaster dilakukan uji validasi dengan silhouette width. Metode analisis klaster terbaik untuk mengelompokkan provinsi-provinsi di Indonesia berdasarkan produksi tanaman pangan pokok tahun 2015 adalah metode k-medoids dengan jarak Euclidean. Dapat diketahui pula bahwa metode k-medoids dengan jarak Euclidean lebih robust dibandingkan metode k-means dengan jarak Euclidean untuk mengelompokkan data dengan pencilan.

Cluster analysis is a multivariate statistical methods to classify objects that have similar characteristics into a cluster. K-means is a clustering method using mean as its cluster center. However, mean is not robust to the presence of outliers, so k-means algorithm is sensitive for data with outliers. To overcome this problem, k-medoids methods can be used to classify data with outliers. Medoid is the most centrally located object in a cluster, so it�s robust to outliers. One of the popular methods for k-medoids is Partitioning Around Medoids (PAM). In cluster analysis, the objects are grouped by the similarity. To measure the similarity, it can be used distance measures, Euclidean distance and Manhattan distance. Then, to determine the quality of the clustering results can be used validity index with silhouette width. The best clustering method to classify the provinces in Indonesia based on staple food production in 2015 is k-medoids with Euclidean distance. Furthermore, it can be concluded that k-medoids with Euclidean distance is more robust than k-means with Euclidean distance to classify data with outliers.

Kata Kunci : k-medoids/k-medoids, Partitioning Around Medoids/Partitioning Around Medoids, pencilan/outlier, silhouette width/silhouette width

  1. S1-2017-348050-abstract.pdf  
  2. S1-2017-348050-bibliography.pdf  
  3. S1-2017-348050-tableofcontent.pdf  
  4. S1-2017-348050-title.pdf