Generalization of LR-GCN For Multi-Label Text Classification
Dzaki Dzikril Hakim, Aina Musdholifah, S.Kom., M.Kom., Ph.D.
2025 | Skripsi | ILMU KOMPUTER
Pertumbuhan pesat teks digital multibahasa telah meningkatkan kebutuhan akan model Multi-Label Text Classification (MLTC) yang mampu melakukan generalisasi lintas domain, struktur label, dan bahasa. Penelitian ini mengkaji kemampuan generalisasi Label-Representative Graph Convolutional Network (LR-GCN), yaitu model yang mengintegrasikan graf ko-kemunculan label dengan representasi embedding label dan dokumen. Penelitian ini menggunakan empat dataset yang beragam dan menantang, yaitu tiga subset CAIL2019 Feature Recognition berbahasa Tiongkok serta dataset LexGLUE EUR-Lex berbahasa Inggris. Dataset-dataset ini berbeda dari dataset yang sebelumnya digunakan untuk mengevaluasi LR-GCN, terutama dari sisi kekhususan domain hukum dan perbedaan bahasa. Untuk mengakomodasi sifat multibahasa dari sebagian data, encoder transformer berbahasa Inggris pada model asli digantikan dengan encoder transformer berbahasa Tiongkok. Hasil penelitian menunjukkan bahwa LR-GCN secara konsisten mampu bersaing dengan model MLTC terbaru, dengan capaian Hamming Loss yang lebih rendah pada seluruh dataset berbahasa Tiongkok. Selain itu, LR-GCN juga mengungguli LSAN, model MLTC lain yang berfokus pada label, pada seluruh metrik P@k dan nDCG@k pada dataset LexGLUE EUR-Lex. Temuan ini menunjukkan bahwa LR-GCN tidak hanya mempertahankan akurasi prediksi yang kompetitif lintas bahasa dan domain, tetapi juga memperoleh manfaat signifikan dari struktur graf labelnya, khususnya pada skenario dengan pola ko-kemunculan label yang jarang atau tidak merata.
The rapid growth of multilingual digital text has intensified the need for MultiLabel Text Classification (MLTC) models that generalize across domains, label structures, and languages. This research investigates the generalization ability of the Label-Representative Graph Convolutional Network (LR-GCN), a model that incorporates label co-occurrence graphs with label and document embeddings. This research uses four diverse and challenging datasets, three Chinese CAIL2019 Feature Recognition subsets and the English LexGLUE EUR-Lex dataset. These differ to previously tested datasets in LR-GCN with its legal domain specificity and language. To account for the multilingual nature of the some of the data, the original English transformer encoders were replaced with Chinese equivalents. The findings show that LR-GCN is consistently competitive with a recent MLTC model, achieving lower Hamming Loss across all Chinese datasets. It also outperforms LSAN, another label-focused MLTC model, on all P@k and nDCG@k metrics in LexGLUE EUR-Lex. These results show that LR-GCN not only maintains competitive predictive accuracy across languages and domains but also benefits from its label graph structure, especially in settings with sparse or uneven label cooccurrence patterns.
Kata Kunci : Multi-Label Text Classification, Graph Convolutional Network, Label Co-occurence, Transformer Embeddings