Google Play Store Rating Prediction Utilizing Random Forest and K-Nearest Neighbors Regression with Feature Sensitivity Analysis and K-Means Clustering Feature Analysis

ZHAFIRA ELHAM FAWNIA, Moh Edi Wibowo, S.Kom., M.Kom., Ph.D.; Faizal Makhrus, S.Si., M.Sc., Ph.D

2022 | Skripsi | S1 ILMU KOMPUTER

Di era digitalisasi ini, persaingan untuk memprediksi atribut keberhasilan suatu aplikasi semakin beragam. Google Play Store adalah salah satu sumber terbaik bagi konsumen untuk mendapatkan aplikasi dan game seluler secara khusus. Oleh karena itu, menimbulkan pertanyaan apakah mungkin untuk memprediksi peringkat game berdasarkan fitur pasar mereka, jenis kluster apa yang ada dalam data dan apa yang dapat berkontribusi pada kesuksesan prediksi. Prediksi dan pengelompokan variabel berkelanjutan berada di bawah istilah umum analitik prediktif. Metode regresi biasanya digunakan untuk prediksi variabel kontinu. Oleh karena itu, model pembelajaran mesin yang sering digunakan untuk masalah prediksi dan klasifikasi yang cocok dengan variabel diskrit dan kontinu adalah Random Forest; karena ia membangun serangkaian pohon keputusan dengan nilai variasi yang ditentukan, dengan kombinasi bagging dan pemilihan random forest. Untuk membandingkan hasil regresi Random Forest, model regresi K-Nearest Neighbors diterapkan pada masalah yang sama. Hasilnya menunjukkan Random Forest (95,19%) berkinerja lebih baik daripada K-Nearest Neighbors (94,3%) saat memprediksi variabel kontinu untuk peringkat game seluler. Analisis pengelompokan setiap fitur dilakukan untuk memahami tingkat pentingnya setiap fitur, dan faktor keberhasilan aplikasi dalam Google Play Store. Pendekatan clustering menggunakan Unsupervised K-Means Clustering; sebuah algoritma yang mengelompokkan data menjadi beberapa kelompok untuk melihat kemungkinannya satu sama lain. Hasilnya menunjukkan bahwa ada tiga kluster berbeda dalam dataset Google Play Store.

Within this age of digitalization, the competition to predict successful attributes of an application is getting more and more versatile. The Google Play Store is amongst the top sources for consumers to obtain mobile applications and games specifically. Therefore, it raises the question of whether it is possible to predict the rating of games based on their market features, what kind of clusters exist within the data and what could contribute to their success. Continuous variable prediction and clustering are under the umbrella term of predictive analytics. A regression method is commonly used for continuous variable prediction. Hence, a machine learning model often used for both prediction and classification problems that fits both discrete and continuous variables is Random Forest; as it builds a series of decision trees with a decided variation value, with a combination of bagging and random forest selections. To compare the results of the Random Forest regression, a K-Nearest Neighbors regression models applied to the same problem. The results show Random Forest (95.19%) performs better than K-Nearest Neighbors (94.3%) when predicting continuous variables for mobile games rating. Clustering analysis of each feature is performed to understand the importances, and success factors of the applications within the Google Play Store. The clustering approach is using the unsupervised K-Means Clustering; an algorithm that clusters data into multiple clusters to see its likelihood of one another. The results show that there are three distinct clusters within the Google Play Store dataset.

Kata Kunci : Regression, Random Forest, K-Nearest Neighbors, Clustering, K-Means, Continuous Variable Prediction, Market Feature Analysis

