IDENTIFIKASI DAN GENERALISASI UJARAN KEBENCIAN TERSIRAT MENGGUNAKAN TRIPLET NETWORK DAN COSINE-ANGULAR BASED SEMI-HARD NEGATIVE MINING

wicaksono leksono muhamad

wicaksono leksono muhamad, Yunita Sari, S.Kom., M.Sc., Ph.D., Dr. Sri Mulyana, M.Kom.

2025 | Tesis | MAGISTER KECERDASAN ARTIFISIAL

Abstrak
File Pdf

SourceURL:file:///home/wicaksonolxn/Documents/YUDISIUM/Ringkasan Tesis Bahasa Indonesia.docx

Penyebaran konten provokatif di media sosial meningkat, namun deteksi ujaran kebencian tersirat tetap menantang. Karakteristik ujaran kebencian tersirat sering menyerupai teks netral dan memiliki variansi intra-kelas yang tinggi, sehingga sulit dipetakan oleh model konvensional.

Penelitian sebelumnya melakukan fine-tuning pada model pra-latih berbasis BERT dengan Supervised Contrastive Learning (SCL), menggunakan data augmentasi dan implied statement sebagai pasangan positif. Namun, SCL bisa menimbulkan overclustering karena menganggap selain pasangan tersebut sebagai negatif, sehingga teks yang mirip dikelompokkan secara berlebihan dan model jadi lemah dalam generalisasi.

Dalam penelitian ini, digunakan triplet loss dengan semi-hard negative mining untuk mengurangi overclustering. Negatif dipilih lebih sepadan dengan mempertimbangkan kelas, sehingga ruang embedding lebih stabil. Rancangan memakai metrik jarak kosinus–angular dengan margin aditif pada domain radian maupun kosinus, serta fungsi reducer statis (SmoothMax) dan adaptif (attentiveReducer) untuk memaksimalkan informasi dalam satu batch.

Pendekatan ini menghasilkan peningkatan F1-Score sebesar 1.13% pada IHC dan 1.15% pada SBIC, serta peningkatan hingga 6.32% pada uji silang. Hasil ini menunjukkan bahwa triplet loss berbasis angular lebih unggul dalam mengoptimasi deteksi ujaran kebencian tersirat.

The spread of provocative content on social media continues to rise, yet detecting implied hate speech remains a difficult task. Implied hate speech often resembles neutral text and exhibits high intra-class variance, making it hard for conventional models to map effectively.

Previous studies have fine-tuned BERT-based pre-trained models using Supervised Contrastive Learning (SCL), leveraging data augmentation and implied statements as positive pairs. However, SCL can lead to overclustering because it treats all other samples as negatives, causing overly tight groupings of similar texts and weakening the model’s generalization ability.

In this study, triplet loss with semi-hard negative mining is employed to reduce overclustering. Negative samples are chosen more proportionally by considering their class, resulting in a more stable embedding space. The framework uses cosine–angular distance metrics with additive margins applied in both radian and cosine domains, along with static (SmoothMax) and adaptive (attentiveReducer) reducers to maximize information within each batch.

This approach yields an F1-Score improvement of 1.13% on IHC and 1.15% on SBIC, with up to 6.32% gains in cross-dataset testing. These results demonstrate that angular-based triplet loss outperforms alternative methods in optimizing implied hate speech detection.

Kata Kunci : identifikasi ujaran kebencian tersirat, cosine-based semi-hard negative mining, triplet loss

S2-2025-528898-abstract.pdf
S2-2025-528898-bibliography.pdf
S2-2025-528898-tableofcontent.pdf
S2-2025-528898-title.pdf

LAYANAN

E-Resources

Quick Access