Laporkan Masalah

PENDETEKSIAN KEMIRIPAN SINOPSIS RENCANA PENELITIAN TUGAS AKHIR DAN SKRIPSI MENGGUNAKAN TOPIC2VEC (Studi Kasus di STMIK Bumigora Mataram)

ZAENAL ABIDIN, Dr. Yohanes Suyanto M.I.Kom.

2018 | Tesis | S2 Ilmu Komputer

Pencarian kemiripan dokumen merupakan hal yang sudah umum dilakukan oleh para peneliti. Banyak pendekatan model yang sudah dikembangkan, diantaranya adalah model probabilitas dan prediksi. Model probabilitas mencari kemiripan dokumen berdasarkan kemunculan kata pada dokumen sedangkan model prediksi dengan mempelajari kotek kata yang ada pada dokumen dan direpresentasikan dalam modelword embedding. Word embedding yang dihasilkan model prediksi menjadi acuan dalam pencarian kemiripan pada dokumen. Pada penelitian ini, dilakukan pencarian kemiripan sinopsis penelitian tugas akhir dan skripsi untuk menilai kelayakan penyusunan tugas akhir dan skripsi di STMIK Bumigora Mataram. Pencarian kemiripan dokumen mengkombinasikan model probabilitas dengan model prediksi. Salah satu metode yang mengkombinasikan model tersebut adalah Topic2Vec. Topic2Vec membangkitkan topik dari kumpulan tugas akhir dan skripsi dengan model probabilitas, latent dirichlet allocation (LDA). Hasil topik yang dibangkitkan dari model probabilitas dibentuk ke word embedding dengan model prediksi (skip-gram). Word embedding yang dihasilkan, digunakan untuk mencari kemiripan dokumen menggunakan metode word mover distance. Pengujian akurasi yang dilakukan dari model dengan menggunakan mean average precision (MAP) dan recall, menunjukkan bahwa model Topic2Vec tidak mampu meningkatkan akurasi untuk mencari kemiripan dokumen. Pengujian menunjukkan hasil dengan MAP 56% dan recall 64% pada jumlah 1300 topik yang dibangkitkan.

Document similarity search is commonly done by researchers. Many approach models have been developed, such as probability and prediction models. The probability model search document similarities based on word appearance in documents while the prediction model trains the existing word contexts in the documents to generated word embedding. Base on the word embedding is used to find documents similarity. This research is conducted to find similarities of synopsis of research final project and thesis in STMIK Bumigora Mataram to assess the feasibility of the preparation of the final project and thesis. Document similarity search combines probability model and prediction model. The method that combines the model is Topic2Vec. Topic2Vec generates topics from the final project and theses using the probability model, latent dirichelet allocation (LDA). The generated topic results are formed into word embedding using the prediction model (skip-gram). Generated Word embedding is used to find document similarity using word mover distance method. After conducting accuracy testing by applying the model and employing the mean average precision (MAP) and recall, figured out that the Topic2Vec model was unable to improve accuracy to find similarities among documents. The testing presented MAP of 56% and recall of 64% from 1300 topics raised.

Kata Kunci : kemiripan dokumen, LDA, word embedding, skip-gram, Topic2Vec.

  1. S2-2018-388515-abstract.pdf  
  2. S2-2018-388515-bibliography.pdf  
  3. S2-2018-388515-tableofcontent.pdf  
  4. S2-2018-388515-title.pdf