Laporkan Masalah

Penerapan Algoritma Model Based Clustering dalam Pengelompokan Data Fungsional

Hidayah Budi Sayekti, Drs. Zulaela, Dipl.Med.Stats., M.Si

2024 | Skripsi | STATISTIKA

            Analisis cluster adalah salah satu metode analisis multivariat yang bertujuan untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Data yang dikumpulkan seiring waktu dapat disederhanakan menjadi bentuk yang lebih ringkas dengan mengubahnya menjadi fungsi atau kurva. Pengelompokan data fungsional menggunakan pendekatan probabilistik seperti model based clustering dilakukan dengan mengklasifikasikan data ke dalam cluster berdasarkan karakteristik fungsi atau kurva yang mewakili setiap data. Pembentukan fungsi dasar pada langkah awal dilakukan  menggunakan pendekatan nonparametrik cubic B-Spline. Kemudian, algoritma expectation maximization digunakan dalam perhitungan probabilitas dan mengelompokkan data ke masing-masing cluster.

            Metode ini diterapkan untuk mengelompokkan kabupaten/kota di Provinsi Jawa Tengah tahun 2010-2022 berdasarkan indikator Indeks Pembangunan Manusia. Representasi data fungsional dilakukan dengan cubic B-Spline basis smoothing menggunakan 6 fungsi basis. Penentuan jumlah cluster dilakukan dengan menggunakan nilai Bayesian Information Criterion (BIC) terbesar. Hasil penelitian ini menunjukkan bahwa terdapat 4 cluster yang memiliki karakteristik berbeda. Cluster 1 terdiri dari 3 kota, cluster 2 terdiri dari 12 kabupaten/kota, cluster 3 terdiri dari 11 kabupaten/kota, dan cluster 4 terdiri dari 9 kabupaten/kota.

Cluster analysis is one of the multivariate analysis methods that aims to group objects based on their characteristics. Data collected over time can be simplified into a more concise form by transforming it into a function or curve. Functional data clustering using probabilistic approaches such as model-based clustering is done by classifying data into clusters based on the characteristics of the function or curve that represents each data. Functional data representation in the first step is done using the cubic B-Spline nonparametric approach. Then, the expectation-maximization algorithm is used in calculating the probability and grouping the data into each cluster.

This method is applied to cluster regencies/cities in Central Java in 2010-2022 based on the Human Development Index indicator. Functional data representation is done with cubic B-Spline basis smoothing with 6 basis functions. The largest Bayesian Information Criterion (BIC) value is used to determine the number of clusters. In this study, four clusters are formed that have different characteristics. Cluster 1 consists of 3 cities, cluster 2 consists of 12 regencies/cities, cluster 3 consists of 11 regencies/cities, and cluster 4 consists of 9 regencies/cities.

Kata Kunci : analisis cluster, model based clustering, cubic B-Spline, algoritma EM

  1. S1-2024-445717-abstract.pdf  
  2. S1-2024-445717-bibliography.pdf  
  3. S1-2024-445717-tableofcontent.pdf  
  4. S1-2024-445717-title.pdf