Laporkan Masalah

Algoritma pencarian informasi pada World Wide Web berbasis isi halaman Web dan Struktur Link

FATWANTO, Agung, Dr. Ahmad Ashari, M.Kom

2004 | Tesis | S2 Ilmu Komputer

Perkembangan World Wide Web (WWW) yang sedemikian pesat, seiring dengan pertumbuhan jumlah halaman web dalam skala yang sangat besar pula. Semakin banyak halaman web memang bermanfaat untuk memperkaya informasi. Akan tetapi hal ini juga mengakibatkan dibutuhkannya usaha yang semakin besar dan waktu yang semakin lama untuk mencari informasi tertentu sesuai dengan apa yang dikehendaki. Selain itu, semakin maraknya tindakan spamming, terkadang juga dapat mengurangi kualitas hasil pencarian. Untuk memperoleh urutan hasil pencarian yang baik sesuai dengan tingkat kepentingan halaman web, dilakukan dengan cara memberi bobot terhadap seluruh halaman web hasil pencarian. Pembobotan dapat dilakukan berdasarkan isi atau teks halaman web dan struktur link antar halaman web. Pembobotan berbasis isi dilakukan dengan metode pencocokan teks dan kemiripan. Sedangkan pembobotan berbasis struktur link dilakukan dengan metode PageRank dan BeckRank. Dengan suatu rumusan tertentu, seluruh bobot tersebut digabung menjadi satu untuk mendapatkan bobot total dari suatu halaman web. Untuk mengantisipasi kerancuan bobot akibat tindakan spamming, dilakukan dengan cara mengkonversi beberapa nilai komponen penyusun bobot total suatu halaman web, dari nilai absolut ke nilai relatif. Sementara itu, normalisasi seluruh komponen nilai penyusun bobot total halaman web, perlu dilakukan untuk menyeimbangkan semua komponen nilai tersebut, sekaligus untuk mengurangi pengaruh tindakan spamming terhadap pembobotan. Penelitian menunjukkan bahwa pemberian bobot yang seimbang antara bobot berbasis teks dengan bobot berbasis struktur link, akan memberikan hasil yang lebih baik. Apabila dibandingkan dengan daftar urutan halaman web yang diperoleh tanpa melalui proses pembobotan, atau yang melalui proses pembobotan sebagian, maka daftar urutan halaman web yang diperoleh dari proses pembobotan total ternyata lebih berkualitas. Artinya, urutan halaman web yang ditemukan tersebut sesuai dengan tingkat kepentingan atau keterkaitan kandungan isi halaman web terhadap kata query.

World Wide Web (WWW) and web pages have been growing at a very incredible rate. Even more number of web pages are useful for information enrichment, but this lead to the need of more effort and and more time to find such information on WWW, which have a result what we expected. Beside, nowadays there are more spamming activities that can reduce the quality of search result. A good searching result, which mean that the order of the found URL are the order of the importance level of those URL, can be obtained by giving weight to all of the searching result. Weighting web pages can be done with text-based weighting method by counting the values of their text matching and similarity weight. Weighting can also be done with link structure-based weighting method by counting their PageRank and BeckRank values. With a given formula, all the weight are added together to get the total weight of a page. To anticipate the effect of spamming to the weight, is done by converting some values of the component of the total weight, from their absolute values to their relative values. Meanwhile, normalization of all values of the component of the weight, are necessary for balancing the values of all those element. This action is also proposed to reduced the effect of spamming to the weighting scheme. Research shows that balancing the values of text-based and link structurebased weight, will give a better result. Compared with the result from nonweighting and partially-weighting scheme, the result from total weighting scheme give the best quality result. This mean that the order of the URL in that result shows the importance level of the pages based on query.

Kata Kunci : Komputer,Woeld Wide Web,Algoritma Pencarian, Algorithm, Information Retrieval, World Wide Web, PageRank, BeckRank


    Tidak tersedia file untuk ditampilkan ke publik.