Laporkan Masalah

DETEKSI PLAGIARISME DENGAN MENGGUNAKAN LEXICAL SCORE

Andhika Satria Bagaskoro, Edi Winarko, Drs., M.Sc., Ph.D; Yunita Sari, S.Kom., M.Sc., Ph.D.

2020 | Skripsi | S1 ILMU KOMPUTER

Plagiarisme sering terjadi dalam lingkup akademik, khususnya pada institusi pendidikan tinggi, karena mudahnya mengakses dokumen orang lain secara bebas. Sudah banyak metode untuk mendeteksi plagiarisme dan secara besar dibagi dua bagian, yaitu deteksi plagiarisme ekstrinsik dan deteksi plagiarisme intrinsik. Metode deteksi plagiarisme ekstrinsik merupakan sebuah metode yang menggunakan satu dokumen yang dianggap plagiarisme lalu dibandingkan dengan dokumen lain untuk mendeteksi plagiarisme. Metode ini membutuhkan banyak dokumen sebagai pembanding agar hasilnya akurat. Sedangkan pada metode deteksi plagiarisme intrinsik dapat mendeteksi dengan hanya menggunakan beberapa dokumen. Pada penelitian ini, digunakan metode deteksi plagiarisme intrinsik dengan menggunakan lexical score untuk dilihat performanya dan dibandingkan dengan metode oleh Kuznetsov et al., 2016. Data yang digunakan berasal dari PAN-2018. Metode ini menggunakan frekuensi kata pada setiap kalimat, paragraf maupun dokumen, lexical score, penggunaan kelas kata dan penggunaan tanda baca. Fitur-fitur tersebut kemudian akan dilatih menggunakan Gradient Boosting Regressor yang menghasilkan nilai kalimat. Dengan menggunakan nilai threshold tertentu, setiap kalimat akan dilabeli plagiarisme atau tidak. Dengan menggunakan lexical score, sistem dapat mendeteksi kalimat plagiarisme dengan hasil F1 score tertinggi sebesar 42,67%. Hasil tersebut memiliki kenaikan yang signifikan, jika dibandingkan dengan tidak menggunakan lexical score.

Plagiarism often occurs in the academic sphere, especially in higher education institutions, because it is easy to access other people�s documents. There are many methods to detect plagiarism and are divided into two parts, namely extrinsic plagiarism detection and intrinsic plagiarism detection. Extrinsic plagiarism detection method is a method that uses a document that is considered plagiarism and is compared with other documents to detect plagiarism. This method requires a lot of documents as a comparison for accurate results. Whereas intrinsic plagiarism detection method can detect using only a few documents. In this study, the intrinsic plagiarism detection method is used by using a lexical score to see its performance and compared with the method by Kuznetsov et al., 2016. The data used comes from PAN-2018. This method uses word frequency in each sentence, paragraph or document, lexical score, use of word classes and use of punctuation. These features will then be trained using the Gradient Boosting Regressor which generates sentence values. By using a certain threshold value, each sentence will be labeled plagiarism or not. By using a lexical score, the system can detect plagiarism sentences with the highest F1 score of 42.67%. These results have a significant increase, when compared to not using a lexical score.

Kata Kunci : Deteksi Plagiarisme Intrinsik, Plagiarisme, Lexical Score, Gradient Boosting Regressor, PAN-2018

  1. S1-2020-379616-abstract.pdf  
  2. S1-2020-379616-bibliography.pdf  
  3. S1-2020-379616-tableofcontent.pdf  
  4. S1-2020-379616-title.pdf