Laporkan Masalah

Analisis Klaster Menggunakan Algoritma BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) Pada Dataset Besar Dengan Pencilan

Wahid Nurrasyid, Drs. Danardono, MPH., Ph.D.

2025 | Skripsi | STATISTIKA

Seiring dengan peningkatan volume data tiap tahunnya, dibutuhkan metode analisis yang efisien dan skalabel untuk mengolah data berskala besar secara tepat. Penelitian ini mengusulkan penerapan algoritma BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) sebagai metode klasterisasi pada dataset besar yang mengandung pencilan (outlier). Algoritma BIRCH dipilih karena kemampuannya dalam menangani data berukuran besar secara efisien melalui struktur pohon Clustering Feature (CF-Tree) yang memungkinkan pemrosesan data secara inkremental dan hierarkis. Penelitian ini menguji berbagai kombinasi parameter utama seperti threshold dan branching factor untuk mengevaluasi pengaruhnya terhadap kualitas dan struktur klaster, menggunakan metrik evaluasi seperti silhouette score serta visualisasi pairplot. Hasil menunjukkan bahwa nilai threshold memiliki pengaruh signifikan terhadap kualitas klaster: threshold tinggi (2.0) menghasilkan pemisahan klaster yang lebih baik (silhouette score hingga 0.7197) dan jumlah subklaster yang lebih rendah. Profilisasi terhadap klaster yang terbentuk menunjukkan perbedaan karakteristik yang jelas, yaitu klaster dengan dominasi gas beracun, partikulat tinggi, dan wilayah dengan kualitas udara yang bersih. Dengan demikian, penelitian ini diharapkan mampu mengidentifikasi pola kualitas udara yang beragam, memberikan wawasan penting dalam pengambilan kebijakan lingkungan, serta memperkaya kontribusi ilmiah dalam bidang data mining untuk data lingkungan berskala besar.

With the increasing volume of data each year, efficient and scalable analytical methods are needed to accurately process large-scale data. This research proposes the application of the BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies) algorithm as a clustering method for large datasets containing outliers. The BIRCH algorithm was chosen for its capability to efficiently handle massive data through its Clustering Feature (CF-Tree) structure, which enables incremental and hierarchical data processing. This study investigates various combinations of key parameters, such as threshold and branching factor, to evaluate their influence on cluster quality and structure. Evaluation metrics like silhouette score and pairplot visualization were utilized. Results indicate that the threshold value has a significant influence on cluster quality: a high threshold (2.0) yields better cluster separation (silhouette score up to 0.7197) and a lower number of subclusters. Profiling of the formed clusters reveals clear characteristic differences, identifying clusters dominated by toxic gases, high particulates, and regions with clean air quality. Thus, this research is expected to identify diverse air quality patterns, provide important insights for environmental policymaking, and enrich scientific contributions in the field of data mining for large-scale environmental data.

Kata Kunci : Algoritma BIRCH, klasterisasi, dataset besar, pencilan, silhouette score

  1. S1-2025-427715-abstract.pdf  
  2. S1-2025-427715-bibliography.pdf  
  3. S1-2025-427715-tableofcontent.pdf  
  4. S1-2025-427715-title.pdf