Laporkan Masalah

Audio-Visual Convolutional Neural Networks Menggunakan Transfer Learning untuk Deteksi Iklan pada Video Siaran TV

MUHAMMAD Z P W, Moh. Edi Wibowo, S.Kom., M.Kom., Ph.D.

2022 | Tesis | MAGISTER ILMU KOMPUTER

Permasalahan deteksi iklan pada media TV memiliki tantangan yang cukup sulit karena keragamanan jenis acara dan saluran TV. Penggunaan metode deep learning untuk deteksi iklan telah menunjukkan hasil yang cukup baik. Namun, deep learning membutuhkan waktu komputasi pelatihan yang lama dengan epoch pelatihan yang besar untuk mendapatkan akurasi tinggi. Penelitian ini memanfaatkan transfer learning untuk mengurangi waktu pelatihan dengan membatasi jumlah epoch sebesar 20. Fitur data video yang digunakan yaitu dari aspek audio berupa Mel-spektogram dan aspek visual berupa frame. Dataset dikumpulkan dengan merekam beberapa program yang disiarkan di beberapa saluran TV nasional. Pre-trained model CNN MobileNetV2, InceptionV3, dan DenseNet169 dilatih kembali dan digunakan untuk deteksi pada level shot. Kemudian dilakukan pasca pemrosesan untuk mengelompokkan shot pada segmen iklan dan non-iklan. Hasil deteksi shot terbaik diperoleh pada model Audio Visual CNN menggunakan transfer learning dengan akurasi 93,26% pada 20 epoch, melampaui hasil CNN tanpa transfer learning dengan akurasi 88,17% pada 77 epoch. Ditambah perbaikan pada pasca pemrosesan, hasil akhir Audio Visual CNN menggunakan transfer learning meningkat dengan akurasi 96,42%.

The TV commercial detection problem is a hard challenge due to the variety of programs and TV channels. The usage of deep learning methods to solve this problem has shown good results. However, it takes a long time with many training epochs to get high accuracy. This research uses transfer learning techniques to reduce training time and limits the number of training epochs to 20. From video data, the audio feature is extracted with Mel-spectrogram representation, and the visual features are picked from a video frame. The datasets were gathered by recording programs from various TV channels in Indonesia. Pre-trained CNN models such as MobileNetV2, InceptionV3, and DenseNet169 are re-trained and are used to detect commercials at the shot level. We do post-processing to cluster the shots into segments of commercials and non-commercials. The best result is shown by Audio-Visual CNN using transfer learning with an accuracy of 93.26% with only 20 training epochs. It is faster and better than the CNN model without using transfer learning with an accuracy of 88.17% and 77 training epochs. The result by adding post-processing increases the accuracy of Audio-Visual CNN using transfer learning to 96.42%.

Kata Kunci : Iklan, TV, CNN, Transfer Learning, InceptionV3, MobileNetV2, DenseNet169

  1. S2-2022-448717-abstract.pdf  
  2. S2-2022-448717-bibliography.pdf  
  3. S2-2022-448717-tableofcontent.pdf  
  4. S2-2022-448717-title.pdf