Prediksi jumlah likes pada unggahan gambar dengan caption multibahasa di Instagram menggunakan mBERT dan InceptionResnetV2
Muhammad Cahaya Saputra, Dr. Agfianto Eko Putra, M.Si.
2026 | Tesis | S2 Ilmu Komputer
Instagram merupakan salah satu media sosial dengan pengguna terbanyak secara global dan banyak dimanfaatkan oleh agensi digital marketing untuk pemasaran. Popularitas di platform ini dipengaruhi oleh berbagai faktor keterlibatan (Engagement), salah satunya jumlah likes. Karena postingan Instagram umumnya terdiri dari gambar dan caption, kedua elemen tersebut perlu dipertimbangkan dalam prediksi jumlah likes. Penelitian ini mengusulkan pendekatan multimodal dengan menggabungkan fitur caption menggunakan model pra-latih mBERT, fitur visual menggunakan InceptionResNetV2, serta fitur metadata. Ketiga jenis fitur tersebut digabungkan melalui strategi fusion multimodal dan diproses lebih lanjut menggunakan Multi-Head Multimodal Attention serta Auxiliary Loss berbasis InfoNCE. Hasil eksperimen menunjukkan bahwa model multimodal menghasilkan nilai MSE sebesar 0.0044, MAE sebesar 779, RMSE sebesar 2283 dan R² sebesar 0.85 pada data uji. Nilai R2 menunjukkan bahwa model mampu menjelaskan hingga 85% varisasi jumlah likes, yang merupakan peforma tinggi dalam konteks prediksi Jumlah likes pada platform media sosial. Hasil ini menunjukkan bahwa model yang diusulkan mampu menjawab permasalahan prediksi jumlah likes secara lebih akurat, terutama dibandingkan pendekatan unimodal yang hanya menggunakan teks atau gambar saja. Kelebihan penelitian ini adalah penggunaan pendekatan multimodal yang terbukti unggul dalam meningkatkan akurasi prediksi. Temuan ini juga memberikan implikas praktis bagi praktisi digital marketing untuk mengoptimalkan elemen konten mereka secara strategis. Namun, penelitian ini masih terbatas pada dataset tertentu dan belum diuji pada kondisi dunia nyata dengan variasi konten yang lebih luas.
Instagram is one of the most popular social media platforms globally and is widely used by digital marketing agencies for promotional purposes. Popularity on this platform is influenced by various Engagement factors, one of which is the number of likes a post receives. Since Instagram Posts consist primarily of images and captions, both elements must be considered when predicting the number of likes a post will receive. This study proposes a multimodal approach that combines caption, visual, and metadata features using pre-trained mBERT and InceptionResNetV2 models. These features are combined through a multimodal fusion strategy and processed using multi-head Multimodal attention and InfoNCE-based auxiliary loss. Experimental results indicate that the multimodal model achieves an MSE of 0.0044, an MAE of 779, an RMSE of 2283, and an R² of 0.85 on the test data. An R² value of 0.85 indicates that the model can explain up to 85% of the variation in the number of likes, demonstrating high performance in predicting the number of likes on social media platforms. These results demonstrate that the proposed model can predict the number of likes more accurately than unimodal approaches that use only text or images. This study's advantage lies in its use of a multimodal approach, which has been proven superior for improving prediction accuracy. These findings also have practical implications for digital marketing practitioners, providing them with the ability to optimize their content elements strategically. However, this research is limited to specific datasets and has not been tested under real-world conditions with a wider variety of content.
Kata Kunci : Pemasaran Digital, Media Sosial, Prediksi Jumlah Likes, Multibahasa, Multimodal.