Perancangan Lightweight Transunet Untuk Segmentasi Tubuh-Pakaian Pada Virtual Try-On
Risha Alfanda, Wahyono, S.Kom., Ph.D.
2026 | Tesis | MAGISTER KECERDASAN ARTIFISIAL
Teknologi virtual try-on (VTON) menghadapi tantangan signifikan dalam akurasi segmentasi tubuh-pakaian, terutama pada pose tubuh yang kompleks (seperti lengan terlipat atau menyilang). Kesalahan segmentasi ini secara langsung menyebabkan distorsi geometris dan artefak visual pada tahap warping. Sementara arsitektur deep learning hybrid canggih seperti TransUNet meningkatkan akurasi dengan memiliki kompleksitas sangat tinggi (sekitar 91.1 Juta parameter), sehingga tidak efisien untuk sumber daya GPU terbatas.
Penelitian ini bertujuan mengatasi tantangan tersebut dengan mengembangkan arsitektur TransUNet yang lebih efisien, yang disebut TransUNet-Light. Tujuannya adalah mencapai keseimbangan antara akurasi segmentasi dan efisiensi komputasi. Optimalisasi proses pelatihan dilakukan dengan mengintegrasikan fungsi kerugian berbasis batas (Boundary-Aware Loss) guna mempertajam presisi kontur tepi pakaian. Segmentasi presisi tinggi yang dihasilkan ini kemudian digunakan sebagai panduan geometris kunci untuk modul warping.
Hasil evaluasi kuantitatif menunjukkan bahwa TransUNet-Light mencapai Dice Score 0,9719, yang secara signifikan mengungguli arsitektur CNN murni (U-Net Baseline) yang hanya mencapai 0,8967. Dari sisi efisiensi, TransUNet-Light (20,4 Juta parameter) memiliki parameter 4.5 kali lebih sedikit dan waktu pelatihan 40% lebih cepat dibandingkan arsitektur state-of-the-art TransUNet Full (91.1 Juta parameter). Studi ablasi membuktikan performa optimal (0,9719) diperoleh melalui efek sinergi antara arsitektur TransUNet-Light dan Boundary-Aware Loss. Peningkatan segmentasi ini berdampak kausal langsung pada realisme hasil VTON, menghasilkan kualitas visual superior (SSIM 0,84062, LPIPS 0,25), dibandingkan hasil segmentasi U-Net (SSIM 0,635, LPIPS 0,5869). Penelitian ini berhasil mengusulkan model segmentasi yang efisien dan akurat, yang merupakan prasyarat tak terhindarkan untuk penyesuaian pakaian virtual yang realistis.
Virtual try-on (VTON) technology faces significant challenges in body-clothing segmentation accuracy, particularly with complex body poses (e.g., folded or crossed arms). Errors in segmentation directly cause geometric distortions and visual artifacts during the subsequent warping stage. Furthermore, advanced hybrid Architectures like TransUNet are computationally inefficient, featuring approximately 91.1 million parameters.
This study addresses these challenges by proposing TransUNet-Light, an efficient TransUNet architecture that achieves a crucial balance between segmentation accuracy and computational efficiency. Training is optimized by integrating a Boundary-Aware Loss function to enhance contour precision at clothing edges. The resulting high-precision segmentation mask then serves as the essential geometric guide for the warping module.
Quantitative evaluation shows that the proposed TransUNet-Light model achieves a Dice Score of 0,9719, significantly outperforming the conventional U-Net baseline (0,8967). In terms of efficiency, TransUNet-Light (20,4M parameters) is 4.5 times lighter and 40?ster during training than the state-of-the-art TransUNet Full (91.1M parameters), with negligible accuracy drop (<0>
Kata Kunci : Virtual Try-On, TransUNet, Segmentation, Warping, Boundary Aware Loss, TransUNet-Light