Laporkan Masalah

Pembangkitan Distractor Berdasarkan Relasi Syntagmatic pada Soal Pilihan Ganda Vocabulary Bahasa Inggris Menggunakan Small Language Model (SLM)

Aida Putri, Dr.Eng. Silmi Fauziati, S.T., M.T.

2025 | Tesis | S2 Teknologi Informasi


Proses penyusunan soal pilihan ganda untuk tes kosakata bahasa Inggris, khususnya dalam vocabulary test, menghadapi tantangan dalam menghasilkan distractor yang masuk akal (plausible) namun tetap salah secara kontekstual. Distractor yang tidak relevan atau terlalu mudah dibedakan dari jawaban benar dapat menurunkan kualitas soal dan validitas pengukuran. Penelitian ini bertujuan untuk mengembangkan metode pembangkitan distractor berbasis relasi syntagmatic dengan memanfaatkan Small Language Model (SLM). Pendekatan ini menekankan penggunaan relasi leksikal antar kata yang sering muncul bersama dalam konteks kalimat (lexical collocation), bukan hubungan sinonim, guna mengukur kedalaman kosakata peserta. Metode yang digunakan mencakup ekstraksi target word, pemanggilan model SLM, perhitungan kemiripan konteks menggunakan cosine similarity,cosine similarity, dan validasi oleh tiga orang pakar. Dataset berisi 40 soal TOEFL vocabulary MCQ dari lima buku latihan resmi. Hasil penelitian menunjukkan bahwa sistem berhasil membangkitkan 120 distraktor dengan 3 butir distraktor disetiap soalnya, dengan 91 distractor (75,83%) dinilai plausible oleh pakar dan hanya 7,5% yang dianggap terlalu mirip dengan jawaban benar. Distractor juga memiliki kesesuaian kelas kata (part of speech) sebesar 97,5?ngan kata target. Temuan ini menunjukkan bahwa pendekatan berbasis SLM dan relasi syntagmatic mampu menghasilkan distractor yang valid secara kontekstual dan cocok untuk mengukur kedalaman kosakata siswa.

Kata kunci: Distractor, relasi Syntagmatic, Small Language Model, Vocabulary Test, Automatic Item Generation

The process of constructing multiple-choice questions for English vocabulary tests, particularly vocabulary assessments, faces challenges in generating distractors that are plausible yet contextually incorrect. Distractors that are irrelevant or too easily distinguished from the correct answer can reduce the quality and validity of the test. This study aims to develop a distractor generation method based on syntagmatic relations by leveraging a Small Language Model (SLM). This approach emphasizes lexical collocations words that frequently appear together in context rather than synonymy, in order to assess learners' vocabulary depth. The method involves extracting the target word, generating distractors via SLM, calculating contextual similarity using cosine similarity, and validating the results through expert evaluation. The dataset consists of 40 TOEFL vocabulary MCQ items sourced from five official preparation books. The results show that the system successfully generated 120 distractors (3 per question), with 91 distractors (75.83%) rated as plausible by experts, and only 7.5% considered too similar to the correct answer. Additionally, 97.5% of the distractors matched the target word’s part of speech. These findings indicate that the SLM based syntagmatic approach can effectively produce contextually valid distractors suitable for measuring vocabulary depth.

Keywords: Distractor, Syntagmatic Relation, Small Language Model, Vocabulary Test, Automatic Item Generation

Kata Kunci : Distractor, Syntagmatic Relation, Small Language Model, Vocabulary Test, Automatic Item Generation

  1. S2-2025-526929-abstract.pdf  
  2. S2-2025-526929-bibliography.pdf  
  3. S2-2025-526929-tableofcontent.pdf  
  4. S2-2025-526929-title.pdf