Laporkan Masalah

ANALISIS KINERJA MODIFIKASI LAPISAN KLASIFIKASI PADA METODE BERT UNTUK KLASIFIKASI TEKS

GUSTI M. RIDUAN, Dr. Indah Soesanti, S.T., M.T. ; Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D.

2023 | Tesis | MAGISTER TEKNOLOGI INFORMASI

Manusia saat ini memproduksi beragam data dengan jumlah dan ukuran sangat besar, seperti: astronomi, bisnis, kedokteran, ekonomi, olahraga, cuaca, finansial dan lain-lain. Sadar tidak sadar data ada di sekitar kita, di rumah sakit ada data rekam medis, di kampus ada data mahasiswa dan dosen. Salah satu tugas untuk menyelesaikan persoalan ini salah satunya adalah klasifikasi teks, yang merupakan bagian penting dari banyak aplikasi natural language processing (NLP). Saat ini metode atau model-model dari transformers merupakan state-of-the-art pada bidang teks, ada begitu banyak metode yang digunakan peneliti untuk memecahkan masalahnya, seperti Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) dan Bidirectional Encoder Representations from Transformers (BERT). Walaupun BERT mempunyai kelebihan performa, namun model/metode ini bersifat umum untuk segala tugas, misalnya aplikasi chatbot, machine translation, question answering, kategorisasi dan pengelompokan teks dan lain-lain. Dalam tugas akhir ini, penulis mengusulkan sebuah improvisasi pada lapisan klasifikasi model BERT yang diberi nama iBERT, berupa penerapan ReLU, Sigmoid, dropout beserta layer linear (fully connected), kemudian melakukan fine-tuning pada beberapa hyperparameter yang terbukti menghasilkan performa yang sangat baik untuk klasifikasi teks dibanding dengan model lainnya yang telah di komparasi pada penelitian ini, menghasilkan akurasi 94.15% pada dataset AG News terkait pengklasifikasian topik berita, untuk sentimen analisis dengan dataset IMDb akurasi sebesar 93.84% dan klasifikasi spam akurasi 99.46%.

Humans currently produce a variety of data with very large amounts and sizes, such as: astronomy, business, medicine, economics, sports, weather, finance and others. Consciously or not, data is all around us, in hospitals there is medical record data, on campus there is student and lecturer data. One of the tasks to solve this problem is text classification, which is an important part of many natural language processing (NLP) applications. Currently methods or models of transformers are state-of-the-art in the text field, there are many methods used to solve the problem, such as Convolutional Neural Network (CNN), Long Short Term Memory (LSTM) and Bidirectional Encoder Representation from Transformers (BERT). Although BERT has its advantages, this model/method is general for all tasks, such as chatbot applications, machine translation, answering questions, categorizing and grouping text, and so on. In this final project, the author proposes an improvisation on the BERT model classification layer called iBERT, in the form of implementing ReLU, Sigmoid, dropout and linear (fully connected) layers, then fine-tuning several hyperparameters which are proven to produce excellent performance for text classification compared to other models that have been compared in this study, resulted in an accuracy of 94.15% in the AG News dataset regarding the classification of news topics, for sentiment analysis with the IMDb dataset an accuracy of 93.84% and spam classification an accuracy of 99.46%.

Kata Kunci : natural language processing , fine-tuning, BERT, text classification

  1. 1. S2-2023-470165-title.pdf  
  2. 2. S2-2023-470165-tableofcontent.pdf  
  3. 3. S2-2023-470165-abstract.pdf  
  4. 6. S2-2023-470165-bibliography.pdf