Pengembangan sistem tanya jawab penggunaan teknologi AI menggunakan klasifikasi BERT dan generasi jawaban T5

Muhammad Linggar Ryanidha

Muhammad Linggar Ryanidha, Prof. Dr.Azhari, MT.

2025 | Skripsi | ILMU KOMPUTER

Abstrak
File Pdf

Penelitian ini dilatarbelakangi oleh kebutuhan untuk memahami penggunaan berdasarkan sosial, ekonomi, teknologi, dan regulasi dari perkembangan AI melalui teks-teks buku yang bersifat naratif dan panjang. Rumusan masalah penelitian mencakup: efektivitas mBERT untuk klasifikasi paragraf berlabel semi-otomatis, kualitas jawaban generatif FLAN-T5, serta perbandingan performa mBERT dengan metode TFIDF+SVM. Metode yang digunakan meliputi pelabelan semi-otomatis berbasis regex, fine-tuning mBERT untuk klasifikasi empat kategori, dan fine-tuning FLAN-T5 untuk menjawab pertanyaan berbasis isi buku. Hasil penelitian menunjukkan bahwa mBERT mencapai performa terbaik pada dataset gabungan dengan F1-macro 0,84 (validasi) dan 0,76 (uji), serta mengungguli TF-IDF+SVM pada data yang lebih besar dan bervariasi. FLAN-T5 menghasilkan jawaban yang relevan dan informatif dengan nilai BLEU 63–73 dan ROUGE-L 0,68–0,81. Kesimpulannya, kombinasi mBERT dan T5 efektif untuk membangun sistem analisis teks dan tanya jawab berbasis buku AI, meskipun kualitas pelabelan regex masih menjadi keterbatasan utama penelitian.

This study is motivated by the need to analyze social, economic, technological, and regulatory usage of AI through long-form narrative book texts. The research addresses three questions: the effectiveness of fine-tuned mBERT for semi-automatically labeled paragraph classification, the quality of answers generated by FLAN-T5, and how mBERT compares to TF-IDF+SVM. The methodology includes regex-based semiautomatic labeling, fine-tuning mBERT for four-class paragraph classification, and finetuning FLAN-T5 to generate responses grounded in book content. Results show that mBERT performs best on the merged dataset, achieving F1-macro scores of 0.84 (validation) and 0.76 (test), outperforming TF-IDF+SVM on larger and more heterogeneous data. FLAN-T5 produces relevant and coherent answers, with BLEU scores of 63–73 and ROUGE-L values between 0.68 and 0.81. In conclusion, the combined use of mBERT and T5 is effective for building an AI-book-based classification and question answering system, although regex labeling quality remains a key limitation.

Kata Kunci : Machine Learning , Natural Language Processing (NLP), Transformer, Sistem Tanya Jawab, Generative Text.

S1-2025-475209-abstract.pdf
S1-2025-475209-bibliography.pdf
S1-2025-475209-tableofcontent.pdf
S1-2025-475209-title.pdf

LAYANAN

E-Resources

Quick Access