Laporkan Masalah

IDENTIFICATION OF MACHINE-GENERATED TEXT USING STYLOMETRIC AND CONTENT-BASED FEATURES

PUTU ANNAND KURNIA ISWARI, Yunita Sari, S.Kom., M.Sc., Ph.D

2024 | Skripsi | ILMU KOMPUTER

Pesatnya kemajuan kecerdasan buatan (AI), khususnya large language model (LLM), telah membawa perubahan mendasar dalam cara manusia menafsirkan dan memproduksi konten berbasis teks. Large language model (LLM), seperti Generative Pre-trained Transformer 3 (GPT-3), memiliki kemampuan untuk menghasilkan teks yang sangat mirip dengan tulisan yang dihasilkan manusia. Oleh karena itu, penelitian mengenai penggunaan kecerdasan buatan untuk klasifikasi dan analisis teks, khususnya klasifikasi tulisan yang dihasilkan LLM, telah dilakukan dalam beberapa tahun terakhir.  Hal ini menghasilkan pendekatan tingkat lanjut dengan menggunakan language model berbasis deep learning yang sangat kompleks untuk mampu membedakan kedua teks tersebut. Namun, karena metode deep learning bekerja dalam black box, sulit untuk mengidentifikasi pola untuk membedakan kedua teks tersebut. Dalam penelitian ini, identifikasi ciri-ciri teks akan menggunakan fitur stilometri dan fitur berbasis konten. Selain itu, penelitian ini juga membangun model machine learning dari fitur-fitur tersebut untuk mengklasifikasikan teks yang dihasilkan manusia dan teks yang dihasilkan mesin, menggunakan klasifier support vector machine (SVM), logistic regression, dan random forest. Dari eksperimen, fitur stilometri saja menunjukkan efektivitas yang luar biasa, terutama bila dipasangkan dengan pengklasifikasi random forest, mencapai metrik tertinggi dengan akurasi 0,9181. Kombinasi fitur stilometri dan fitur berbasis konten umumnya meningkatkan kinerja pengklasifikasi, meskipun tidak meningkat secara signifikan melebihi hasil fitur stilometrii saja. Performa tinggi yang dicapai dengan fitur stilometri menunjukkan adanya perbedaan gaya penulisan dari kedua jenis teks yang cukup untuk klasifikasi yang efektif.

The rapid advancement of artificial intelligence (AI), in particular large language models (LLM), has brought about a fundamental shift in the manner in which humans interpret and produce content that is based on text. Large Language Models (LLMs), such as the Generative Pre-trained Transformer 3 (GPT-3), have the ability to generate text that is hauntingly similar to the writing that is produced by humans. As a result, the study to use artificial intelligence for text classification and analysis, especially LLM-generated writing, has conducted in the past few year.  It resulted an advanced approaches using a very complex language models that capable to distinguish the two texts. However, as a deep learning method works in black box, it is hard to identify the pattern to distinguish the two text. In this research, the identification of text charactericstics will take stylometric and content-based features. Moreover, this research also build a machine learning model from these features to classify the human-generated text and machine-generated text, using support vector machine, logistic regression, and random forest. From the experiment, stylometric features alone demonstrate remarkable effectiveness, particularly when paired with the Random Forest classifier, achieving the highest metrics with an accuracy of 0.9181. The combination of stylometric and content-based features generally enhances classifier performance, though not significantly improving beyond its results with stylometric features alone. The high performance achieved with stylometric features indicates that writing style characteristics are sufficient for effective classification.

Kata Kunci : Machine-Generated Text Detection, Stylometric Analysis, Content-Based Features, Natural Language Processing

  1. S1-2024-457776-abstract.pdf  
  2. S1-2024-457776-bibliography.pdf  
  3. S1-2024-457776-tableofcontent.pdf  
  4. S1-2024-457776-title.pdf