IMPROVEMENT IN DOCUMENT SIMILARITY CALCULATION USING HASHING ALGORITHM AND SEMANTIC ANALYSIS ON INDONESIAN DOCUMENTS
THEODORUS YOGA M., Dr. Noor Akhmad Setiawan; Dr. Teguh Bharata Adji
2015 | Tesis | S2 Teknik ElektroSistem deteksi plagiarisme sudah ditemukan sejak masa penggunaan PC mulai marak di masyarakat. Sistem ini mengharuskan mahasiswa untuk menggunakan metode sitasi yang benar, sebagai akibat dari kegunaan sistem tersebut yang dapat menemukan kesalahan dalam penulisan, bahkan apabila tulisan tersebut terdeteksi adanya larangan dalam penulisan sitasi. Sistem ini juga dapat memberikan umpan balik terhadap mahasiswa sesuai dengan dokumen yang dimasukkan ke dalam sistem tersebut. Penelitian ini bertujuan untuk mengembangkan sistem deteksi plagiarisme yang sudah diketahui metodenya dengan membandingkan satu dokumen ke banyak dokumen lainnya, yang diketahui dengan nama deteksi extra-corpal. Sebagian besar metode extra-corpal ini dilakukan dengan menghitung tingkat kesamaan antara dokumen atau karya ilmiah yang berada di dalam topik atau kategori yang sama. Di dalam penelitian ini, deteksi berbasis karakter atau deteksi intra-corpal digabungkan dengan deteksi extra-corpal untuk mencapai tingkat akurasi dan presisi yang lebih baik. Deteksi berbasis karakter diimplementasikan dalam bentuk pemisahan dan pemotongan kata-kata, sedangkan deteksi extra-corpal menyediakan deteksi dengan atau tanpa feature selection. Di dalam penelitian ini, algoritme minimal hashing juga digunakan untuk menguji tingkat kesamaan sebagai metode pencocokan dokumen. Analisis semantik juga dilakukan menggunakan WordNet dalam Bahasa Indonesia sebagai kamus. Beberapa metode kalkulasi tingkat kesamaan dokumen, seperti Jaccard, Pearson, dan derajat Euclidean, dibandingkan dengan cara menggabungkan fungsi hashing dan analisis semantik. Hasil penelitian menunjukkan bahwa seluruh metode kalkulasi menunjukkan kondisi yang stabil setelah jumlah tertentu pada fungsi hash. Koefisien Pearson menunjukkan metode terbaik karena metode ini dapat mendeteksi kata-kata yang sama menggunakan nilai yang berbeda secara akurat, seperti yang ditunjukkan pada saat mendeteksi dua dokumen yang tidak identik. Untuk dokumen identik, Jaccard menunjukkan akurasi terbaik dibandingkan dengan Pearson, tetapi jumlah fungsi hash tertentu dibutuhkan oleh Jaccard untuk mencapai hasil yang akurat karena Jaccard lebih menunjukkan relative error yang lebih tinggi dibandingkan dengan Pearson.
Plagiarism detection system has been already known since the PC era. This system asserts students to develop proper citation methods by allowing the tools to find their errors, can use the tools to warn them when they are in danger of being accused for violation against the citation methods, and can receive feedback according to their documents. This research aims to develop plagiarism detection systems that have been known for the methods by comparing one document to another one, which is called extra-corpal detection. Most methods in extra-corpal detection are performed by calculating similarity degree between papers within the same topic or category. In this thesis, character-based, as intra-corpal detection, and extra-corpal detection are combined to achieve the better precision and accuracy in the plagiarism detection systems. Character-based detection is provided as an internal detection that involves separating and cutting strings, while the extra-corpal detection provides detection with and without highest score selection. In this research, minimal hashing algorithm is selected as a document-matching method to test the similarity degree. Semantic analysis is performed using WordNet in Indonesian language as the source. Several similarity degree calculations, such as Jaccard, Pearson, and Euclidean distance, are explained and compared by using combination of hashing functions and semantic analysis. The results show that both similarity calculations show stable conditions after several amount of hash functions. Pearson coefficient is also performed the best since it can detect same data but using different values accurately as it is shown for non-identical documents detection. For identical documents, Jaccard shows best accuracy than Pearson. However, in order to achieve precise results, amount of hash functions in Jaccard should be increased since the results tend to give higher relative errors than Pearson.
Kata Kunci : Plagiarism detection; extra-corpal; hashing algorithm; Jaccard; Pearson; semantic analysis