Laporkan Masalah

AUTHOR OBFUSCATION UNTUK BAHASA INDONESIA MENGGUNAKAN WORD REPLACEMENT WORD EMBEDDING

ADI NURSETYA PRATAMA, Edi Winarko, Drs., M.Sc., Ph.D;Yunita Sari, S.Kom., M.Sc., Ph.D

2022 | Skripsi | S1 ILMU KOMPUTER

Author obfuscation merupakan suatu cara untuk melakukan modifikasi dokumen dengan mengubah writing style dari dokumen. Author obfuscation merupakan salah satu cara untuk menjaga anonimitas author terhadap authorship attribution. Authorship attribution merupakan proses untuk mengidentifikasi suatu penulis dari sebuah dokumen yang diberikan, berdasarkan kumpulan dokumen dari penulis yang sudah diketahui. Hal ini tentunya merupakan ancaman bagi kebebasan berpendapat dan privasi. Untuk melawan ancaman tersebut, metode author obfuscation diusulkan untuk memodifikasi suatu teks supaya penulisnya sulit diidentifikasi tanpa mengaburkan topik utamanya Pada penelitian ini, model author obfuscation dibuat berbasis word embedding untuk memodifikasi artikel berita berbahasa Indonesia. Pada model ini, setiap artikel akan mengalami pra pemrosesan berupa tokenisasi dan PoS tagging. Selanjutnya, kata yang memiliki PoS tag berupa kata kerja dan kata benda akan diubah menggunakan kata yang telah dihasilkan oleh model word embedding. Kata yang digunakan sebagai pengganti, didapat berdasar nilai cosine similarity yang paling mendekati terhadap kata kerja dan kata benda yang akan diganti. Adapun word embedding yang digunakan dalam penelitian ini adalah Word2Vec, Glove, dan FasText. Selanjutnya, susunan kata dan kalimat digabungkan kembali menjadi artikel utuh untuk dilanjutkan proses evaluasi. Model tersebut dievaluasi berdasarkan aspek safety, soundness, dan sensibleness. Dari aspek safety model FastText mendapat hasil paling baik karena dapat menurunkan akurasi model authorship attribution sebesar 0,1150. Untuk aspek soundness model FastText mendapat hasil paling baik dengan kemiripan artikel hasil obfuskasi dengan artikel asli sebesar 0,9935. Namun, untuk aspek sensibleness yang dievaluasi secara manual, model Word2Vec yang mendapat hasil paling baik sebesar 2,756 dari skala 1-5. Dari hasil evaluasi ketiga aspek, model FastText yang paling baik meskipun dari segi tata bahasa dan pemilihan diksi masih belum optimal.

Author obfuscation is a way to modify a document by changing the writing style of the document. Author obfuscation is one way to maintain author anonymity against authorship attribution. Authorship attribution is the process of identifying an author of a given document, based on a document set of known authors. This is certainly a threat to freedom of expression and privacy. To counter this threat, the author obfuscation method is proposed to modify a text so that the author is difficult to identify without obscuring the main topic In this research, the author obfuscation model is developed based on word embedding to modify Indonesian news articles. In this model, each article will undergo pre-processing in the form of tokenization and PoS tagging. Furthermore, words that have PoS tags in the form of verbs and nouns will be changed using words that have been generated by the word embedding model. The word used as a substitute is obtained based on the cosine similarity value that is closest to the verb and noun to be replaced. The word embedding used in this research are Word2Vec, Glove, and FasText. Furthermore, the arrangement of words and sentences are recombined into a complete article to be continued with the evaluation process. The model is evaluated based on aspects of safety, soundness, and sensibleness. From the safety aspect, the FastText model gets the best results because it can reduce the accuracy of the authorship attribution model by 0.1150. For the soundness aspect, the FastText model got the best results with the similarity of the obfuscated article with the original article of 0.9935. However, for the sensibleness aspect that was evaluated manually, the Word2Vec model that got the best results was 2,756 from a scale of 1-5. From the evaluation results of the three aspects, the FastText model is the best, although in terms of grammar and diction selection it is still not optimal.

Kata Kunci : author obfuscation, author attribution, word embedding, Word2Vec, Glove, FastText

  1. S1-2022-409422-abstract.pdf  
  2. S1-2022-409422-bibliography.pdf  
  3. S1-2022-409422-tableofcontent.pdf  
  4. S1-2022-409422-title.pdf