AUTHOR OBFUSCATION TERHADAP ARTIKEL BERITA DAN TWEET MENGGUNAKAN METODE BERBASIS ATURAN
MUHAMMAD RIZKI D, Edi Winarko, Drs., M.Sc. Ph.D. ; Yunita Sari, S.Kom., M.Sc., Ph.D
2022 | Skripsi | S1 ILMU KOMPUTERPerkembangan model authorship attribution saat ini menjadi ancaman bagi para penulis yang ingin mempublikasikan tulisannya secara anonim. Salah satu penangkalnya adalah penelitian mengenai authorship obfuscation. Metode obfuskasi merupakan salah satu teknik untuk memparafrase teks untuk menjaga anonimitas penulis berdasarkan stylometri dari teks. Stylometri merupakan informasi linguistik yang menjadi ciri khas penulis. Fitur stylometri biasanya digunakan sebagai metriks dalam pendeteksian author. Pada penelitian ini, dilakukan authorship obfuscation dengan metode berbasis aturan dengan mengkalkulasi fitur-fitur penting pada stylometri. Dari hasil rata-rata tiap metriks akan dilakukan transformasi teks menggunakan metode seperti POS tagging, Word2Vec, spelling correction dan lain sebagainya. Beberapa aturan transformasi teks tersebut bertujuan untuk mengubah nilai rata-rata dari metriks yang ada sekaligus memparafrase teks. Dalam evaluasi ada beberapa metriks yang diperhatikan yaitu safety, soundness, dan sensibility. Untuk penilaian safety, akan dibuat dua model sebagai benchmark dan memiliki rata-rata penurunan akurasi serta F1 score 0,16 dan 0,164 pada data berita serta 0,385 dan 0,41 pada data tweet. Untuk soundness, digunakan perhitungan cosine similariy untuk menilai kesamaan dengan teks asli dan juga dinilai oleh beberapa responden mengenai konteks dari teksnya. Model memiliki soundness cukup baik dengan nilai 0,6 pada data berita namun kurang baik pada data tweet pada skenario tertentu. Lalu untuk sensibility, juga dilakukan penilaian secara langsung oleh beberapa orang mengenai grammar dan tata bahasanya.Dari hasil penilaian sensibleness bisa dibilang cukup baik dimana beberapa artikel bisa dibaca dengan baik, namun masih banyak juga yang memiliki tata bahasa yang berantakan. Kata-kata kunci : authorship obfuscation, stylometri, metode berbasis aturan
The development of the authorship attribution model is currently a threat for writers who want to publish their writings anonymously. One of the antidotes is research on authorship obfuscation. Obfuscation method is a technique for paraphrasing text to maintain the anonymity of the author based on the stylometry of the text. Stylometry is linguistic information that characterizes the author. The stylometric feature is usually used as a metric in author detection. In this study, authorship obfuscation was carried out using a rule-based method by calculating the important features of stylometry. From the average results of each metric, text transformation will be carried out using methods such as POS tagging, Word2Vec, spelling correction and so on. Some of these text transformation rules aim to change the average value of an existing metric as well as paraphrase the text. In the evaluation there are several metrics to consider, namely safety, soundness, and sensibility. For safety assessment, two models will be made as benchmarks and have an average decrease in accuracy and F1 scores of 0.16 and 0.164 on news data and 0.385 and 0.41 on tweet data. For soundness, the calculation of cosine similarity is used to assess the similarity with the original text and also assessed by several respondents regarding the context of the text. The model has a fairly good soundness with a value of 0.6 on news data but not good on tweet data in certain scenarios. Then for sensibility, several people directly assessed the grammar and grammar. From the results of the sensibleness assessment, it could be said that it was quite good where some already had articles that were acceptable, but there were still many whose grammar looked untidy. Keyword : authorship obfuscation, stylometri, rules based method
Kata Kunci : authorship obfuscation, stylometri, metode berbasis aturan