Laporkan Masalah

Pencarian Citra Produk Berdasarkan Konten Untuk Skenario Consumer-To- Shop Menggunakan Fitur Berbasis Category-Aware Siamese Convolutional Neural Network

Arif Rahman, Drs. Edi Winarko, M.Sc., Ph.D; Dr.tech Khabib Mustofa, S.Si., M.Kom

2023 | Disertasi | S3 Ilmu Komputer

CBIR (Content-Based Image Retrieval) citra produk dalam skenario consumer-to-shop menggunakan pembelajaran similaritas sebagai pengganti fungsi jarak untuk mengatasi masalah pencocokan citra lintas domain. Salah satu cara pembelajaran similaritas citra produk yaitu dengan model Siamese Convolutional Neural Network (SCNN). Pelatihan SCNN tersebut menggunakan supervisi label barang. Namun, produk di toko daring memiliki struktur hierarki yaitu kategori, barang dan citra sehingga selain label barang, kategori juga memiliki pengaruh terhadap relevansi antar citra produk.

Penelitian ini mengusulkan modifikasi arsitektur dan pelatihan SCNN untuk menghasilkan fitur citra yang category-aware. Arsitektur model terdiri dari dua bagian yaitu jaringan backbone (BN) sebagai feature extractor dan single layer network (SLN) untuk pembelajaran fitur. Luaran BN digunakan sebagai input untuk SLN. Model CNN ResNet dan MobileNet digunakan sebagai BN. Pelatihan BN menggunakan label kategori dan softmax loss, sedangkan SLN dilatih dengan label barang dan contrastive loss.

Percobaan dilakukan pada dataset citra produk Stanford Online Product, InShop, dan ConsumerToShop. Hasil pencarian menggunakan fitur dari model SCNN termodifikasi yang telah dilatih dengan label kategori dan barang secara bersamaan, dapat meningkat rata-rata akurasinya dibandingkan dengan fitur dari model SCNN tanpa modifikasi yang dilatih hanya dengan label barang.

CBIR (Content-Based Image Retrieval) for product image in the consumer-to-shop scenario uses similarity learning as a distance function to solve the cross-domain image-matching problem. One of the methods to learn product image similarity is using the Siamese Convolutional Neural Network (SCNN) model. The SCNN training uses supervision of item labels. However, the products in the online store have a hierarchical structure, i.e., categories, items, and images; therefore, in addition to product labels, categories also impact the relevance of product images.

This study proposes architectural modifications and SCNN training to produce category-aware image features. The model architecture consists of the backbone network (BN) as a feature extractor and a single-layer network (SLN) for feature learning. BN output is an input for SLN. The CNN ResNet and MobileNet models are used as the BN. BN training uses category labels and softmax loss, while SLN is trained with item labels and contrastive loss.

The experiment was conducted on the Stanford Online Product, In-Shop, and ConsumerToShop product image datasets. Retrieval results using features from the modified SCNN model trained with category and item labels simultaneously improve the average accuracy compared to features from the unmodified SCNN model trained with item labels.

Kata Kunci : CBIR, pencarian, produk, consumer-to-shop, CNN

  1. S3-2023-405305-abstract.pdf  
  2. S3-2023-405305-bibliography.pdf  
  3. S3-2023-405305-tableofcontent.pdf  
  4. S3-2023-405305-title.pdf