Laporkan Masalah

PENGELOMPOKAN SURAT ELEKTRONIK SECARA SEMANTIK, HIRARKI DAN LANGSUNG PADA BASIS DATA ARSIP EMAIL

M. Zudha Ghofur, Drs. Edi Winarko, M.Sc.,Ph.D

2014 | Tesis | S2 Ilmu Komputer

Untuk mengelola surat elektronik (email) yang tersimpan, saat ini diperlukan suatu aturan yang dibuat secara manual untuk menyaring/mengkategorikan sesuai yang dikehendaki. Sedangkan untuk menemukan kembali email yang telah disimpan, dapat digunakan fitur pencarian. Hasil pencarian yang ada pada email client saat ini hanyalah berupa daftar email secara rata. Untuk memudahkan pengguna mencari email yang relevan dengan mudah dan cepat, diperlukan cara untuk mengelompokkan email ke dalam suatu label/kategori yang relevan. Pengelompokan email tidak hanya berdasarkan kata saja tetapi juga berupa semantik/frase, dan juga bisa disajikan secara hirarki dan dikelompokkan secara langsung. Penelitian dilakukan mulai dari pengumpulan data email yang disimpan sebagai basis data arsip email, kemudian dilakukan pra pengolahan data yang terdiri dari stoping dan stemming. Tahap selanjutnya yaitu ekstraksi ciri, di sini digunakan frase kunci yang diekstraksi dari kumpulan email sebagai ciri email. Setelah ciri email didapatkan kemudian dilakukan proses pengelompokan dengan menggunakan pengelompokan orthogonal, yaitu digunakan Singular Value Decomposition (SVD). Pada tahap ini akan dilakukan analisa, apakah pengelompokan dengan SVD menghasilkan pengelompokan secara akurat dan persistent atau tidak. Tahap selanjutnya adalah penentuan label dan hirarki, label ditentukan terhadap kata/frase kunci yang memiliki nilai terbesar dalam kelompok vektor dan hirarki dilakukan dengan membandingkan tiap pasangan kelompok untuk melihat apakah dapat dilakukan penggabungan kelompok atau diperlakukan sebagai relasi induk-anak. Tahap terakhir dilakukan pengujian. Melihat hasil pengujian penelitian tahapan demi tahapan, maka dapat diketahui bahwa sistem pengelompokan orthogonal terhadap basis data arsip email mampu mengelompokkan email secara semantik, dan juga dapat dibuat suatu hirarki yang memudahkan pengguna dalam menelusuri email yang relevan.

To manage the stored email, it currently takes a manually created rules to filter/ categorize as desired. Meanwhile, to rediscover the email that has been saved, it can be used search feature. Search results in the email client is currently just a flat list of email. To facilitate users easily and quickly search for relevant email, needed a way to classify emails into a relevant label/category. Email clustering not only by words but also in the form of semantic/phrases, and can also be presented in a hierarchical and online clustering. The research was conducted start from data collection of electronic mail are stored as email database archive, then do preprocessing includes stopping and stemming. The next stage is feature extraction, here used key phrases which are extracted from a collection of email as a feature of the email. Having obtained the email feature, then do the clustering by using orthogonal clustering, which used Singular Value Decomposition. At this stage it will be analyzed, whether clustering with SVD produces accurate grouping and persistent or not. The next stage is to determine the label and hierarchy, the label specified key words/phrases that have the greatest value in the group vector, and the hierarchical done by comparing each pair of groups, to see whether the merger can be treated as a group or a parent-child relationship. The last stage of this research will be testing each stage. Seeing the results of stage-by-stage testing research, it can be seen that the orthogonal clustering system on the email archive database capable of clustering semantically electronic mail, and also can be made of a hierarchy that allows users to browse the relevant email.

Kata Kunci : latent semantic indexing, cluster, email, arsip email, semantik, temu kembali


    Tidak tersedia file untuk ditampilkan ke publik.