Laporkan Masalah

Authorship Verification pada Teks Berbahasa Indonesia Menggunakan Siamese Network

FADHLAN PASYAH A F, Anny Kartika Sari, S.Si., M.Sc., Ph.D.; Yunita Sari, S.Kom., M.Sc., Ph.D.

2022 | Skripsi | S1 ILMU KOMPUTER

Authorhsip Verification merupakan metode untuk memverifikasi penulis dua buah teks, apakah ditulis oleh orang yang sama atau berbeda. Metode tersebut bermanfaat dalam mencegah dan menginvestigasi terjadinya kejahatan yang melibatkan penulisan atau dokumen (text forensic) yang sangat mungkin terjadi seiring majunya teknologi dan persebaran informasi, salah satunya pemalsuan dokumen. Authorship verification dilakukan dengan membandingkan perbedaan informasi penulisan antara dua teks, sehingga dibutuhkan dua input dalam proses pembelajaran model yang dikembangkan. Siamese Neural Network merupakan pengembangan arsitektur jaringan syaraf tiruan yang mampu memproses dua input dengan parameter yang sama, sehingga sesuai untuk digunakan pada masalah authorship verification sebagai masalah perbandingan. Penelitian ini bertujuan membangun model pembelajaran mesin berbasis Siamese Neural Network untuk masalah Authorship Verification. Data yang digunakan merupakan teks berita dan tweet berbahasa Indonesia tanpa batasan topik untuk menghasilkan model independent terhadap topik teks. Teks yang digunakan direpresentasikan menggunakan pre-trained word embedding BERT dan Fasttext untuk menemukan word embedding dan konfigurasi paling sesuai untuk kedua dataset. Model yang dikembangkan mampu menghasilkan nilai akurasi training 78.89% pada data teks berita dan 63.99% pada data tweet. Sedangkan untuk hasil pengujian, model dapat menghasilkan akurasi sebesar 76.55% pada data teks berita dan 57.84% pada data teks tweet. Berdasarkan hasil pengujian dapat disimpulkan bahwa jaringan syaraf tiruan Siamese dapat digunakan untuk masalah Authorship Verification pada teks berbahasa Indonesia.

Authorship Verification is a method to verify the writer of two texts, classifying whether they were written by the same or different author. The method is very useful to prevent and investigate text-based crime action which has considerable possibility along with technology development and information broadcasting, for example document forgery. Authorship verification is conducted by comparing the difference of writing information between two texts; therefore two parallel inputs would be required on the developed model learning step. Siamese Neural Network is a development of artificial neural network which capable to process two inputs with the same parameter, thus making it suitable for authorship verification task which considered to be a comparison task. This research is conducted by developing machine learning model for authorship verification task. The used text data are Indonesian news and tweet text without any limitation on their topic to produce a topic-independent model. The text is then represented using pre-trained BERT and Fasttext word embeddings to find the most suitable configurations and word embedding for each of the two datasets. The developed model can produce the training accuracy of 78.89% on news text and 63.99% on tweet text. As for the testing result, the model can achieve 76.55% accuracy and 57.84% on tweets. Based on the result produced by the model, it can be concluded that Siamese Neural Network can be utilized to develop a model for Authorship Verification task on Indonesian text.

Kata Kunci : Authorship Verification, Siamese Neural Network, Natural Language Processing