Laporkan Masalah

PENGATEGORIAN ARTIKEL BERITA KAMPUS BERBAHASA INDONESIA PADA PORTAL BERITA KAMPUS DENGAN MENGGUNAKAN ALGORITMA BISECTING K-MEANS

Putu Bagus Susastra, Ir. P. Insap Santosa, M.Sc., Ph.D

2013 | Tesis | S2 Teknik Elektro

Campbuzz merupakan portal berita kampus yang mendapatkan artikel berita melalui RSS feed dari website universitas-universitas sehingga artikel berita yang dikelola sangat besar dan artikel berita tersebut tidak memiliki kategori. Hal ini tentu akan menambah beban kerja dari admin Campbuzz sehingga diperlukan sistem yang dapat mengelola artikel-artikel yang ada pada database Campbuzz untuk meringankan beban kerja dari admin Campbuzz. Clustering adalah suatu teknik unsupervised learning yang dapat membentuk kelompok-kelompok (cluster) dari sekumpulan data dengan jumlah yang besar. Salah satu algoritma yang digunakan pada proses clustering adalah bisecting K-means yang merupakan pengembangan dari algoritma K-means. Text clustering berdasarkan isi dari artikel berita dapat menjadi solusi untuk masalah yang dihadapi oleh admin Campbuzz dalam hal melakukan pengelolaan artikel yang ada pada database Campbuzz. Pengembangan sistem yang dapat melakukan text clustering diawali dengan melakukan studi literatur yang berkaitan dengan preprocessing text, teknik representasi dokumen, algoritma clustering dan tools yang digunakan untuk proses clustering. Hasil dari penelitian ini adalah terbentuknya 20 kelompok berita dari 210 sampel artikel berita kampus yang digunakan. Nilai rata-rata IST dari cluster yang terbentuk adalah 0.590013058. Setiap cluster yang terbentuk direpresentasikan oleh 3 kata.

Campbuzz is campus news portal that obtained the news from universities RSS feed so that the amount of managed articles is very big and there is no category on news articles. It will certainly increase the workload of Campbuzz admin so is needed system that can manage the articles in the Campbuzz database to ease Campbuzz admin workload. Clustering is unsupervised learning techniques are used to determine the groups (clusters) of a set of large number data. One of algorithm that used for clustering is bisecting K-means, the improvement of K-means algorithm. Text clustering based on content of news articles can be a solution to the problem faced by Campbuzz admin in case arrangements article in Campbuzz database. Development systems that can perform text clustering begins with a literature study relating to the text preprocessing, document representation techniques, clustering techniques, clustering algorithm and tools used for the clustering process. The result of this research is 20 groups news of 210 campus news article samples. The average value of IST from 20 clusters is 0.590013058. Each cluster is represented by 3 words.

Kata Kunci : unsupervised learning, preprocessing, clustering, bisecting K-means


    Tidak tersedia file untuk ditampilkan ke publik.