Laporkan Masalah

IMPLEMENTASI ALGORITMA SUFFIX TREE CLUSTERING DAN NEAREST NEIGHBOR UNTUK MENGELOMPOKKAN BERITA PADA TIMELINE TWITTER

JUMADI, Drs..Edi.Winarko,.M.Sc.,.Ph.D.,.

2013 | Tesis | S2 Ilmu Komputer

Kedinamisan konten tweet berita yang disebarkan oleh organisasi penyedia berita pada Twitter menimbulkan banyaknya jumlah tweet yang dipublikasikan setiap harinya. Hal ini dapat menambah panjang halaman web mikroblog, sehingga menimbulkan permasalahan klasik yaitu memerlukan proses page scrolling yang lebih lama pada saat proses pembacaan semua teks tweet berita yang ada. Salah satu pemecahan permasalahan yang dapat dilakukan untuk mengurangi panjang halaman. web tersebut adalah dengan cara melakukan pengelompokkan teks berita yang ada secara tematik. Sistem pengelompokkan yang tepat untuk permasalahan ini adalah sistem pengklasteran. Berdasarkan beberapa penelitian yang ada, salah satu metode yang baik dalam proses pengklasteran dokumen teks adalah Suffix tree Tree Clustering (STC). Metode ini mempunyai tingkat ketepatan yang sangat tinggi karena dalam pembentukan klaster berdasarkan pada phrase-shared di antara dokumen-dokumen teks yang ada Tetapi pada salah satu penelitian yang ada dalam melakukan proses pengklasteran dengan menggunakan algoritma Suffix Tree Clustering (STC) masih menghasilkan dokumen teks anggota klaster Other topics dalam jumlah yang banyak dan jika. diperhatikan. dokumen. teks. anggota. klaster. ini juga diketahui masih ada relevansinya dengan dokumen teks anggota pada klaster yang ada. Oleh karena itu, dokumen teks yang berada pada klaster Other Topic ini perlu dibandingkan dengan semua dokumen teks di klaste yang ada untuk mengetahui tingkat kemiripannya. Dengan demikian, dokumen teks anggota klaster Other Topics ini dapat diklasifikasikan ke dalam salah satu klaster tertentu dengan menggunakan fungsi cosine similarity berdasarkan dari hasil perhitungan dengan menggunakan metode Vector Space Model (VSM) yang mengacu pada frekuensi term dan frekuensi dokumen yang ada. Hasil perhitungan ini akan digunakan oleh metode Nearest Neighbor dalam proses klasifikasi untuk menentukan klaster tujuan perpindahan bagi dokumen teks anggota klaster Other Topics Kriteria klaster sebagai tujuan perpindahan adalah klaster dengan jumlah anggota terbanyak yang memiliki kemiripan tertinggi Proses perpindahan dokumen teks anggota klaster Other Topics ini akan mengakibatkan berkurangnya jumlah angota klaster tersebut. Pada akhirnya, jika klaste Other Topics tidak memiliki anggota maka klaster ini pun dapat dihilangkan.

Dynamism news tweet content are disseminated by news organization providers on Twitter, causing the large number of. weets published every day. It can increase the length of Microblog web pages and inflict to the classic problems that require page scrolling process is longer.during the process of reading all of The existing text news tweets. The problems solving that can be done to reduce the length of the web pages is by grouping the existing text news thematic. Grouping system suitable for this problem is the clustering system Based on some.existing research one good method in the process of clustering text documents is a Suffix Tree.Clustering (STC). This method has a very high accuracy rate because clusters create based on phrase-shared among documents existing text. But one of the existing research in the process of clustering algorithms using STC still produce text documents Other Topics cluster members in large numbers and text documents members of this cluster are still relevant to the text document members of the existing clusters. Therefore the text documents that is in the Other Topics cluster need to compare with all text documents in the existing clusters to determine the level of similarity. Thus a text document Other Topics cluster members can be classified into one particular cluster by using the cosine similarity function based on the results of calculations using the method of Vector Space Model (VSM) which refers to the term frequency and the frequency of existing documents. Results of this calculation will be used by the Nearest Neighbor.method in the classification process to determine the destination cluster displacement for text documents Other Topics cluster members. The main criteria of goal cluster as destination of displacement is the cluster with the highest number of members that have the highest similarity. The process of moving text document cluster members Other Topics impact on the reduction in the number of members of this cluster. Finally if the Other Topics cluste has no members then this cluster can be eliminated.

Kata Kunci : Classification, Clustering, Cosine Similarity, Nearest Neighbor, SuffixTree Clustering.


    Tidak tersedia file untuk ditampilkan ke publik.