Sistem identifikasi kategori website dengan metode pembobotan TF-IDF dan metode decision tree
CHRISMANTO, Antonius Rachmat, Dr. Ahmad Ashari, M.Kom
2008 | Tesis | S2 Ilmu KomputerMakin bertambahnya website yang bermunculan di Internet, membuat pengguna kadang mengalami kesulitan untuk mencari website yang benar-benar tepat berisi topik dan kategori yang sesuai dengan yang diinginkan. Hal ini sering dihadapai oleh pengguna yang baru saja mengenal dunia Internet. Maka dari itu muncul kebutuhan untuk mengkategorikan website berdasarkan kategori tertentu. Kumpulan kata dalam suatu halaman web dapat dianggap sebagai suatu basis data yang membutuhkan pemrosesan yang cukup kompleks agar dapat mengambil informasi-informasi penting didalamnya. Pada penelitian ini dikembangkan sebuah aplikasi yang diharapkan mampu mengambil informasi yang tersembunyi di dalam kata-kata yang ada pada suatu halaman website tertentu, sehingga dapat digunakan untuk mengkategorikan halaman website tersebut ke dalam kategori-kategori yang sudah ditentukan sebelumnya. Aplikasi ini menggunakan metode-metode text mining untuk menganalisa halaman website tertentu. Tahapan proses pembelajarannya adalah tahap tokenisasi, penghapusan kata-kata umum dengan menggunakan stopword list, dan stemming. Setelah itu dilakukan pembobotan tingkat kepentingan katakata dengan metode TF-IDF, dan akhirnya dilakukan klasifikasi dengan metode Decision Tree. Dengan selesainya penelitian ini dihasilkan suatu aplikasi server dan client yang mampu menganalisa halaman website tertentu dan mengkategorikan halaman tersebut sesuai dengan kategori tertentu berdasarkan data pembelajaran yang sudah dilakukan sebelumnya.
Websites grow faster in the Internet, so user often get difficult to search website that exactly match with their needs. This problem usually happened on newbie user. Because of the needs, website should be categorized. The collection of words of web pages can be considered as a large words database that requires complex processing to gather all informations inside of it. In this research, we develop an application that can dig all information that hide in web pages so it can be used to categorize a web page to it’s category that already learned before. This application uses text mining methods to analize a web page. The first process is tokenisation, deletion of common words by using stop words list, and the last is stemming process. After preprocessing, we have to set weight of words with TF-IDF method to get some important words, and finally we use Decision Tree method to categorize a web page. By completing this research, we have client and server application that can analyze a web page and categorize it by all the data that learned before. Client use web service to access server application.
Kata Kunci : kategorisasi halaman website, TF-IDF, text mining, web page categorization, Decision Tree