Penerapan Regresi Linier pada Teknik Profile Expansion untuk Menghasilkan Virtual Rating dalam Mengatasi Masalah Cold Start Pengguna pada Sistem Rekomendasi Film
Meydie Tri Malindo, Teguh Bharata Adji, S.T., M.T., M.Eng., Ph.D.;Dr.Eng. Ir. Igi Ardiyanto, S.T., M.Eng., IPM., ASEAN Eng., SMIEEE.
2025 | Tesis | S2 Teknologi Informasi
Sistem rekomendasi menjadi komponen penting di platform digital modern karena membantu pengguna menyaring informasi dan membuat keputusan secara personal dan efisien. Salah satu pendekatan yang banyak dipakai adalah Collaborative Filtering (CF), namun pendekatan ini menghadapi keterbatasan pada masalah cold start ketika pengguna baru belum memiliki data historis yang memadai. Untuk mengatasi hal tersebut, sejumlah studi memanfaatkan Profile Expansion Technique (PET), yakni memperkaya profil pengguna dengan virtual rating yang diturunkan dari tetangga relevan. Dalam kerangka PET, Global Most-Rated (GMR) mengombinasikan informasi demografi (usia, jenis kelamin, pekerjaan) dan rating untuk membentuk similaritas final yang kemudian digunakan dalam pembentukan virtual rating bagi pengguna cold start, sehingga CF lebih cepat memperoleh sinyal preferensi pada fase awal interaksi.
Namun, terdapat dua masalah utama pada metode GMR. Pertama, parameter penggabung alfa dan bobot demografi umumnya ditetapkan melalui grid-search, sehingga presisi nilai parameter yang diuji menjadi terbatas serta menuntut pengujian berulang. Kedua, similaritas demografi pada atribut usia menggunakan skema biner, sehingga gradasi kedekatan numerik yang relevan tidak terwakili. Menanggapi kondisi tersebut, penelitian ini mengusulkan varian GMR-LR: penguatan GMR dengan Regresi Linear (Linear Regression, LR) untuk pembobotan berbasis data (estimasi alfa dan bobot demografis) serta similaritas usia kontinu berbasis reciprocal distance yang merepresentasikan kedekatan usia secara lebih halus. Dengan demikian, kebutuhan grid-search pada GMR dapat dihilangkan tanpa mengubah fokus evaluasi utama, yakni peningkatan kualitas rekomendasi.
Metode dievaluasi pada dataset MovieLens-100K menggunakan skema leave-N-out dengan variasi jumlah real rating N = 2–10 (jumlah rating awal) dan variasi jumlah virtual rating I = {5, 10, 15, 20, 50} (jumlah rating yang ditambahkan). Metode juga dibandingkan dengan tiga baseline: CF-Base (murni tanpa virtual rating), LMR (penerapan virtual rating tanpa penggunaan data demografi), dan GMR (penerapan virtual rating dengan data demografi dan optimasi grid-search). Kinerja metode diukur menggunakan Mean Absolute Error (MAE) untuk akurasi prediksi dan metrik Top-K Precision@10 (P@10) serta Recall@10 (R@10) untuk kualitas daftar rekomendasi pada skenario cold start.
Hasil eksperimen menunjukkan bahwa GMR-LR mencapai MAE rata-rata 0,8022, lebih baik dibanding GMR (0,8034) dan CF-Base (0,8088), dengan penurunan yang signifikan secara statistik (uji Wilcoxon berpasangan pada skor MAE, p = 0,006). Pada dimensi Top-K, rata-rata P@10 GMR-LR = 0,241 (lebih tinggi daripada GMR = 0,235, LMR = 0,231, dan CF-Base = 0,190), sedangkan R@10 rata-rata = 0,045 (sedikit lebih rendah dari GMR dan lebih baik daripada baseline non-demografis). Pada cold start ekstrem (N = 2, I = 20), GMR-LR mencapai P@10 = 0,252 dan R@10 = 0,050, melampaui GMR (P@10 = 0,238; R@10 = 0,046). Analisis parameter memperlihatkan tren alfa menurun dari 0,683 (N = 2) menjadi 0,5 (N = 10), mengindikasikan pergeseran bobot dari demografi menuju rating aktual seiring bertambahnya interaksi. Selain itu, usia terkonfirmasi sebagai fitur demografis yang paling dominan (w_age = 0,55). Ablation study menegaskan bahwa optimasi similarity usia setiap komponen modifikasi (pembobotan berbasis LR dan similaritas usia kontinu) berkontribusi pada penurunan MAE maupun kenaikan metrik Top-K. Temuan ini menunjukkan bahwa GMR-LR merupakan pendekatan yang andal dan mudah diadopsi untuk mitigasi cold start pada sistem rekomendasi film, sekaligus memberi panduan praktis pemilihan virtual rating (I = 20) sesuai jumlah rating awal pengguna.
Recommender systems have become a key component of modern digital platforms because they help users filter information and make decisions in a more personal and efficient way. One widely used approach is Collaborative Filtering (CF); however, CF faces limitations with the cold start problem when new users lack sufficient historical data. To address this, prior studies have employed the Profile Expansion Technique (PET), namely, enriching user profiles with virtual ratings derived from relevant neighbors. Within PET, Global Most-Rated (GMR) combines demographic information (age, gender, occupation) and ratings to compute a final similarity, which is then used to generate virtual ratings for cold-start users, enabling CF to obtain preference signals earlier in the interaction phase.
However, two main issues remain in GMR. First, the mixing parameter alpha and demographic weights are typically set using a grid search, which restricts the accuracy of the tested parameter values and requires repeated experimentation. Second, demographic similarity for the age attribute often uses a binary scheme, failing to capture relevant numerical gradations of proximity. In response, this study proposes the GMR-LR variant: strengthening GMR with Linear Regression (LR) for data-driven weighting (estimating alpha and demographic weights) and introducing continuous age similarity based on reciprocal distance, which represents age proximity more smoothly. This eliminates the need for grid search in GMR without changing the primary evaluation focus, namely, improving the quality of recommendations.
The method was evaluated on the MovieLens-100K dataset using a leave-N-out scheme with variations in the number of real ratings N=2–10 (initial ratings) and the number of virtual ratings I={5,10,15,20,50} (ratings added). The method was also compared against three baselines: CF-Base (no virtual ratings), LMR (virtual ratings without demographic data), and GMR (virtual ratings with demographic data and grid-search tuning). Performance was measured using Mean Absolute Error (MAE) for rating-prediction accuracy, and the Top-K metrics Precision@10 (P@10) and Recall@10 (R@10) for recommendation-list quality under the cold-start scenario.
Experimental results show that GMR-LR achieved an average MAE of 0.8022, outperforming GMR (0.8034) and CF-Base (0.8088), with a statistically significant reduction (paired Wilcoxon test on MAE scores, p = 0.006). For the Top-K dimension, the mean P@10 of GMR-LR was 0.241 (higher than GMR = 0.235, LMR = 0.231, and CF-Base = 0.190), while the mean R@10 was 0.045 (slightly lower than GMR but better than non-demographic baselines). Under the extreme cold-start condition (N = 2, I = 20), GMR-LR achieved P@10 = 0.252 and R@10 = 0.050, surpassing GMR (P@10 = 0.238; R@10 = 0.046). Parameter analysis indicates a decreasing trend in alpha from 0.683 (N = 2) to 0.5 (N = 10), suggesting a shift in weight from demographics to actual ratings as interactions increase. In addition, age was confirmed as the most dominant demographic feature (w_age = 0.55). The ablation study confirms that each modification component (LR-based weighting and continuous age similarity) contributes to reducing MAE. These findings indicate that GMR-LR is a reliable and easily adoptable approach for mitigating cold start in movie recommender systems, while also offering practical guidance for selecting virtual ratings (I = 20) according to the number of initial user ratings.
Kata Kunci : Collaborative Filtering, Cold Start Problem, Profile Expansion Technique, Virtual Ratings, Linear Regression