Pengembangan Model Chatbot Kesehatan Mental Berbasis LLM dengan Metode Fine-Tuning dan Optimisasi Preferensi
AKBAR SIGIT PUTRA, Dr. Bimo Sunarfri Hantono, S.T., M.Eng.; Dr. Ir. Guntur Dharma Putra, , S.T., M.Sc.
2025 | Skripsi | TEKNOLOGI INFORMASI
Penelitian ini mengeksplorasi teknik fine-tuning dan optimisasi preferensi pada Large Language Model (LLM) untuk pengembangan model chatbot kesehatan mental berbahasa Indonesia. Chatbot konvensional berbasis aturan, seperti Lintang Chatbot yang dikembangkan oleh Universitas Gadjah Mada, memiliki keterbatasan dalam memberikan respons yang adaptif terhadap variasi emosional dan kompleksitas percakapan kesehatan mental. Sementara itu, chatbot berbasis LLM menawarkan solusi yang menjanjikan dengan kemampuannya dalam memahami konteks dan menghasilkan respons yang lebih dinamis dan empatik. Akan tetapi, model yang belum dilatih pada data domain spesifik seperti kesehatan mental kerap menghadapi masalah halusinasi, bias, dan misinformasi yang berpotensi membahayakan terutama dalam konteks sensitif seperti kesehatan mental.
Untuk mengatasi tantangan tersebut, penelitian ini mengimplementasikan dan mengevaluasi tiga teknik fine-tuning, yaitu Supervised Fine-Tuning (SFT), Kahneman Tversky Optimization (KTO), dan Group Relative Policy Optimization (GRPO). Metode ini masing-masing dipilih untuk menanamkan pengetahuan domain spesifik, menyelaraskan dengan preferensi manusia, dan meningkatkan kemampuan reasoning model. Ketiga metode dilatih dengan dataset percakapan kesehatan mental bahasa Indonesia yang mencakup 28 topik berbeda dengan LLaMA 3.1 8B sebagai model dasar. Untuk memaksimalkan efisiensi komputasi, teknik Quantized Low-Rank Adaptation (QLoRA) digunakan dengan berbagai konfigurasi rank LoRA. Evaluasi performa dilakukan melalui pengukuran perplexity dan penilaian terhadap lima metrik percakapan terapeutik menggunakan GPT-4o sebagai penilai.
Hasil penelitian menunjukkan peningkatan signifikan pada seluruh model fine-tuned jika dibandingkan model dasar, dengan perplexity yang menurun drastis dari 13,30 menjadi sekitar 3,2, mengindikasikan kemampuan model yang jauh lebih baik dalam menghasilkan respons yang tepat. Skor evaluasi terapeutik menunjukkan peningkatan 3 hingga 4 kali lipat, dengan model KTO rank LoRA 256 menunjukkan performa terbaik di seluruh metrik evaluasi dengan perplexity terendah. Analisis respons model juga menunjukkan peningkatan kemampuan dalam memberikan dukungan yang lebih empatik dan kontekstual dibandingkan model dasar.
This research explores fine-tuning techniques and preference optimization on Large Language Models (LLM) for developing Indonesian mental health chatbot models. Conventional rule-based chatbots, such as Lintang Chatbot developed by Universitas Gadjah Mada, have limitations in providing adaptive responses to emotional variations and understanding the complexity of mental health conversations. Meanwhile, LLM-based chatbots offer promising solutions with their ability to understand context and generate more dynamic and empathetic responses. However, models that have not been trained on domain-specific data such as mental health often face problems of hallucination, bias, and misinformation that can potentially be harmful, especially in sensitive contexts like mental health.
To address these challenges, this research implements and evaluates three fine-tuning techniques, namely Supervised Fine-Tuning (SFT), Kahneman Tversky Optimization (KTO), and Group Relative Policy Optimization (GRPO). Each selected to instill domain-specific knowledge, align with human preferences, and improve the model's reasoning capabilities. The three methods are trained with an Indonesian mental health conversation dataset covering 28 different topics using LLaMA 3.1 8B as the base model. To maximize computational efficiency, the Quantized Low-Rank Adaptation (QLoRA) technique is used with various LoRA rank configurations. Performance evaluation is conducted through perplexity measurement and assessment of five therapeutic conversation metrics using GPT-4o as the evaluator.
The research results show significant improvements across all fine-tuned models compared to the base model, with perplexity drastically decreasing from 13.30 to approximately 3.2, indicating the model's much better ability to generate appropriate responses. Therapeutic evaluation scores show a 3 to 4-fold increase, with the KTO model using LoRA rank 256 demonstrating the best performance across all evaluation metrics with the lowest perplexity. Model response analysis also shows improved ability in providing more empathetic and contextual support compared to the base model.
Kata Kunci : Chatbot, Large Language Models, Mental Health, Fine-tuning, Preference Optimization