Model Dialogue Summarization Bahasa Indonesia Berbasis mBART dengan Semantic Similarity
Delta Setiyarini, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D; Dr. Indriana Hidayah, S.T., M.T.
2025 | Tesis | S2 Teknologi Informasi
Pertumbuhan volume data percakapan di berbagai sektor mendorong kebutuhan akan sistem peringkasan otomatis yang mampu menyederhanakan percakapan menjadi informasi yang ringkas dan tetap sesuai dengan konteks aslinya. Dialogue Summarization hadir sebagai solusi untuk merangkum isi percakapan secara efisien. Namun, penelitian mengenai Dialogue Summarization dalam Bahasa Indonesia masih berada pada tahap awal, sehingga ringkasan yang dihasilkan belum sepenuhnya sesuai dengan konteks percakapan. Tujuan dari penelitian ini mengembangkan model Dialogue Summarization dalam Bahasa Indonesia yang informatif, ringkas dan sesuai dengan konteks percakapan. Proses dimulai dengan menerjemahkan dataset DialogSum ke dalam Bahasa Indonesia menggunakan Google Translate. Kemudian diterapkan mekanisme penyaringan bagian percakapan yang sesuai dengan topik menggunakan Semantic Similarity. Model mBART-Large kemudian di-fine-tune menggunakan data yang telah difilter untuk menghasilkan ringkasan yang relevan secara konteks. Evaluasi dilakukan menggunakan metrik ROUGE dan Human Evaluation untuk menilai aspek informative, concise, dan coverage. Hasil penelitian menunjukan bahwa pendekatan Semantic Similarity tidak memberikan peningkatan signifikan secara statistik berdasarkan evaluasi ROUGE Score, namun memberikan peningkatan signifikan berdasarkan Human Evaluation. Pendekatan ini juga efektif dalam mengurangi noise pada data dan menjaga informasi penting dalam ringkasan. Penelitian ini menunjukkan potensi Semantic Similarity sebagai strategi awal dalam pengembangan model Dialogue Summarization Bahasa Indonesia, serta membuka peluang untuk diterapkan pada layanan publik seperti konsultasi kesehatan dan pendidikan, untuk mempermudah dalam pengambilan keputusan.
The increasing volume of conversational data across various sectors has created a growing need for automatic summarization systems capable of condensing dialogs into concise, informative and contextually relevant information. Dialogue Summarization offers a promising solution to this challenge. However, research on Dialogue Summarization in the Indonesian language remains at an early stage, resulting in summaries that often fail to reflect the full context of the conversation. This study aims to develop an Indonesian Dialogue Summarization model that is informative, concise, and coverage the original dialogue. The process begins with translating the DialogSum dataset into Indonesian using Google Translate. A semantic filtering mechanism is then applied to select utterances that are relevant to the given topic. The mBART-Large model is subsequently fine-tuned on the filtered data to generate contextually relevant summaries. Evaluation is conducted using ROUGE metrics and Human Evaluation to assess informativeness, conciseness, and coverage. The results show that while Semantic Similarity does not lead to a statistically significant improvement based on ROUGE scores, it yields a notable enhancement in Human Evaluation. Additionally, the approach is effective in reducing data noise and preserving essential information in the summaries. This study highlights the potential of Semantic Similarity as a promising initial strategy for developing Indonesian-language Dialogue Summarization models, with possible applications in public services such as healthcare and education to support decision-making processes.
Kata Kunci : Dialogue Summarization, Semantic Similarity, mBART, DialogSum, ROUGE, Human Evaluation