Laporkan Masalah

PENGELOMPOKAN DATA OUTLIER MENGGUNAKAN METODE CENTROID LINKAGE

AMIN SEPTIANINGSIH, Prof. Subanar, Ph.D

2017 | Skripsi | S1 STATISTIKA

Analisi klaster merupakan pengelompokan sejumlah data atau objek yang memiliki kesamaan karakteristik dalam suatu klaster atau kelompok. Terdapat dua jenis metode dalam analisis klaster yang sering digunakan dalam pengelompokan data, yaitu hierarchical clustering dan partitioning clustering (non hierarchical clustering). Pada penelitian studi kasus menggunakan analisis klastering sering ditemukan data yang tergolong outlier sehingga perlu kehatian mengambil keputusan perlakuan terhadap data outlier tersebut. Data outlier pada suatu kondisi dan metode klastering tertentu akan mampu memberikan pengaruh kepada hasil klastering. Pada skripsi ini akan dibahas salah satu contoh metode hierarchical clustering yaitu centroid linkage yang memiliki karakteristik robust terhadap data outlier, berdasarkan perbandingan hasil metode ukuran jarak euclidean dan manhattan. Dalam analisis metode clustering diperlukan metode validasi yang digunakan untuk mengukur tingkat kevalidan hasil pengelompokan klaster. Dalam penulisan skripsi ini akan digunakan metode validasi coeffisient silhouette width untuk menentukan tingkat kevalidan klaster dan klaster terbaik yang telah terbentuk. Sektor pariwisata merupakan sektor yang memiliki peran cukup potensial dalam pengaruh kontribusi peningkatan kondisi perekonomian di suatu Negara. Pada penulisan skripsi ini dilakukan analisis pengelompokan provinsi-provinsi di Indonesia berdasarkan kemajuan dan kesuksesan daya tarik sector pariwisatanya pada tahun 2014 untuk mengetahui pemetaan kondisi dan daya tarik dari sector pariwisata setiap provinsi. Kata kunci : centroid linkage, jarak euclidean, jarak manhattan,, silhouette coefficient width

Cluster analysis is a multivariate statistical methods to classify objects that have similar characteristics into a cluster. The technique includes two methods, hierarchical clustering consists of divisive and agglomerative hierarchical clustering and partitioning clustering (non-hierarchical clustering). Furthermore, bottom-up approach is applied in agglomerative hierarchical method, starting in its own cluster and then pairing two similar clusters to reduce the number of clusters. This research was conducted using centroid linkage as a part of agglomerative hierarchical clustering. Centroid linkage which had robust characteristics to outlier data. To get the best clustering analysis result, a comparative analysis was done using Euclidean distance and Manhattan distance. Centroid linkage is a clustering method that determines cluster central point based on the mean of data in the same group and calculates each group centroid, before merges the groups within the nearest centroid distance. As in clustering method analysis, validity measurement of the clustering result is needed. In order to measure it, this research was using silhouette coefficient validity. Tourism holds significant importance in the economic development of one�s country. This thesis was conducted by grouping provinces of Indonesia using tourism data in order to acknowledge the condition mapping and tourist attractions. Keyword: centroid linkage, euclidean distance, manhattan distance, silhouette coefficient.

Kata Kunci : centroid linkage, jarak euclidean, jarak manhattan,, silhouette coefficient width