Laporkan Masalah

Eksplorasi Penggunaan Metode Hibrida BERT-SVM untuk Tugas Klasifikasi Kebijakan Privasi

Hanna Rachmasari, Dr. Mardhani Riasetiawan, SE Ak., M.T.

2025 | Skripsi | ILMU KOMPUTER

Analisis kebijakan privasi kini berkembang dari pendekatan berbasis aturan yang manual menuju metode berbasis Machine Learning (ML) dan Deep Learning (DL) yang lebih otomatis. Support Vector Machine (SVM) dikenal andal dalam mengklasifikasikan data berdimensi tinggi, namun kurang mampu memahami konteks semantik. Di sisi lain, BERT (Bidirectional Encoder Representations from Transformers) unggul dalam memahami makna dalam teks, tetapi memerlukan sumber daya komputasi yang besar. Dengan menggabungkan BERT dan SVM secara hibrida, kelebihan masing-masing metode dapat dimanfaatkan secara optimal.

Penelitian ini mengeksplorasi efektivitas model hybrid BERT-SVM dalam tugas klasifikasi segmen kebijakan privasi menggunakan dataset OPP-115. Model dibandingkan dengan baseline TF-IDF + SVM menggunakan skema pelabelan 10 kategori Data Practices sesuai dokumentasi Wilson et al. (2016). Pengujian dilakukan pada tiga threshold konsolidasi label (0.5, 0.75, dan 1.0) untuk menilai sensitivitas model terhadap granularitas anotasi.

Hasil menunjukkan bahwa model hibrida memberikan peningkatan performa dibanding baseline, terutama dalam skor micro-F1 yang mencapai 0.7411 pada threshold 1.0. Meskipun peningkatannya terbatas, model menunjukkan stabilitas yang lebih baik terhadap variasi label dan potensi tinggi untuk dikembangkan lebih lanjut, terutama melalui penggunaan embedding domain-spesifik seperti PrivBERT atau pada dataset berskala besar.

Privacy policy analysis is evolving from manual, rule-based approaches to more automated methods based on Machine Learning (ML) and Deep Learning (DL). Support Vector Machines (SVMs) are effective for classifying high-dimensional data but lack the ability to capture semantic context. In contrast, BERT (Bidirectional Encoder Representations from Transformers) excels at understanding the meaning of text but requires substantial computational resources. A hybrid BERT-SVM approach has the potential to combine the strengths of both models.

This research investigates the effectiveness of a hybrid BERT-SVM model for privacy policy segment classification using the OPP-115 dataset. The model is compared to a baseline TF-IDF + SVM approach, utilizing a labelling scheme consisting of 10 Data Practices categories, as documented by Wilson et al. (2016). Experiments were conducted at three label consolidation thresholds (0.5, 0.75, and 1.0) to evaluate the model's sensitivity to annotation granularity.

The results indicate that the hybrid model outperforms the baseline, particularly in terms of micro-F1 score, which reaches 0.7411 at the 1.0 threshold. Although the improvement is modest, the model demonstrates greater stability across varying label thresholds and shows strong potential for further enhancement especially using domain-specific embeddings such as PrivBERT or the application to larger datasets.

Kata Kunci : Analisis Kebijakan Privasi, BERT, Support Vector Machines (SVM), Model Hibrida, Klasifikasi Teks, OPP-115

  1. S1-2025-473646-abstract.pdf  
  2. S1-2025-473646-bibliography.pdf  
  3. S1-2025-473646-tableofcontent.pdf  
  4. S1-2025-473646-title.pdf