Laporkan Masalah

Multi Fase Clustering Menggunakan Kombinasi Average Linkage Agglomerative Clustering dan Single Pass Incremental K-Means Pada Dataset Berita

ADITYAS RUCITRA P, Dr. Yohanes Suyanto

2017 | Tesis | S2 Ilmu Komputer

Surat kabar di indonesia semakin berkembang cepat. Surat kabar yang secara umum ditulis pada edisi cetak saat ini sudah tersedia dalam versi digital. Mudahnya mendapatkan akses internet menjadi kunci berhasilnya surat kabar elektronik. Salah satu tantangan yang muncul dari melimpahnya sumber informasi dari surat kabar ini adalah cara mengelompokkan berita tersebut untuk mendapatkan informasi yang terkelompok berdasarkan kedekatan karakteristik berita tersebut. ��� ��� ��� ��� Penelitian yang dilakukan bertujuan untuk menerapkan teknik pengelompokan berita menggunakan average linkage agglomerative clustering (ALAC) untuk mengetahui cacah cluster optimal pada dataset dan menggunakan single pass incremental k-means clustering (SP-IKC) untuk melakukan clustering pada setiap penambahan berita baru ke dalam dataset. Kombinasi kedua metode clustering digunakan untuk melakukan pengelompokan berita dengan karakteristik data yang dinamis. Secara umum penelitian ini membandingkan kualitas cluster yang dihasilkan oleh dua model multi phase clustering. Multi-phase clustering yang pertama adalah kombinasi dari ALAC dan K-Means, Multi-phase clustering yang kedua adalah kombinasi ALAC dan SP-IKC. ��� ��� ��� ��� ���  Evaluasi cluster secara internal menggunakan silhouette coefficient pada kombinasi clustering pertama menunjukkan nilai rata-rata silhouette coefficient = 0,0191 dan multi phase clustering kombinasi kedua menunjukkan rata-rata silhouette coefficient = 0,01706. Berdasarkan hasil yang sudah diperoleh, kualitas cluster yang dibentuk menggunakan skenario incremental clustering lebih baik daripada dengan skenario non-incremental clustering.

Newspapers in Indonesia are growing fast. Newspapers that are generally written in print editions are now available in digital version. Easily get internet access empowering usage of electronic newspapers. One of the challenges that arise from the abundance of information sources from these newspapers is how to group them to get clustered information based on the characteristics closeness of the news. The general purpose of this research is to apply news clustering technique using average linkage agglomerative clustering (ALAC) for optimal cluster number detection and using single pass incremental k-means (SP-IKC) to clustering for each incoming news. The combination of both clustering methods is used to group news with dynamic data characteristics. This study compares the cluster quality generated by two multi phase clustering models. The first multi-phase clustering is a combination of ALAC and K-Means, the second multi-phase clustering is a combination of ALAC and SP-IKC. Internal cluster evaluation using average silhouette coefficient in the first clustering combination shows the value of average silhouette coefficient = 0,01910 and the second clustering combination showing average silhouette coefficient = 0,01706. Based these result, the quality of clusters generated using incremental clustering scenarios is better than non-incremental clustering scenarios.

Kata Kunci : clustering, k-means, average linkage agglomerative, single pass clustering, incremental clustering,