Analisis Perbandingan Metode Representasi Teks dan Algoritma Clustering untuk Pengelompokan Menu Restoran
Muhhamad Kukuh Budi Martono, Dr. Lukman Heryawan, S.T.,M.T.
2025 | Tesis | S2 Ilmu Komputer
Klasterisasi pada dataset menu restoran berperan penting dalam mendukung rekomendasi menu, analisis tren, serta manajemen stok dan pengaturan menu yang lebih efisien. Dengan pengelompokan data yang akurat, restoran dapat menawarkan pengalaman yang lebih personal kepada pelanggan dan membuat keputusan berbasis data yang lebih optimal. Penelitian ini mengusulkan analisis komparatif terperinci dari beberapa metode representasi teks, termasuk Bag of Words, Word Embeddings (FastText), dan Bidirectional Encoder Representations from Transformers (BERT), bersama dengan algoritma clustering seperti K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), dan Spectral Clustering. Sembilan kombinasi metode representasi teks dan algoritma clustering diuji pada dataset menu restoran yang terdiri dari 18.979 baris data. Evaluasi kinerja dilakukan menggunakan tiga metrik utama: Silhouette Score, Davies-Bouldin Index (DB-Index), dan Calinski-Harabasz Index (CH-Index).
Hasil eksperimen menunjukkan bahwa kombinasi K-Means dengan FastText mencapai Silhouette Score tertinggi (0,64), sementara DBSCAN dengan FastText mencapai nilai DB-Index terbaik (0,27). Kombinasi K-Means dengan Bag of Words memperoleh skor CH-Index tertinggi yaitu 5695,75. Secara keseluruhan, kombinasi K-Means dengan FastText diidentifikasi sebagai pendekatan paling efektif berdasarkan ketiga metrik evaluasi, dengan Silhouette Score sebesar 0,64, DB-Index sebesar 0,41, dan CH-Index sebesar 4688,86. Penelitian ini memberikan panduan penting dalam memilih metode representasi teks dan algoritme klasterisasi yang optimal untuk aplikasi klasterisasi data berbasis teks.
Clustering on restaurant menu datasets plays an important role in supporting menu recommendations, trend analysis, as well as efficient stock management and menu organization. With precise data grouping, restaurants can offer a more personalized experience to customers and make more optimal data-driven decisions. This study proposes a detailed comparative analysis of several text representation methods, including Bag of Words, Word Embeddings (FastText), and Bidirectional Encoder Representations from Transformers (BERT), along with clustering algorithms such as K-Means, Density-Based Spatial Clustering of Applications with Noise (DBSCAN), and Spectral Clustering. Nine combinations of text representation methods and clustering algorithms were tested on a restaurant menu dataset consisting of 18,979 entries. Performance evaluation was conducted using three primary metrics: Silhouette Score, Davies-Bouldin Index (DB-Index), and Calinski-Harabasz Index (CH-Index).
Experimental results showed that the K-Means with FastText combination achieved the highest Silhouette Score (0.64), while DBSCAN with FastText achieved the best DB-Index value (0.27). The K-Means with Bag of Words combination obtained the highest CH-Index score of 5695.75. Overall, the K-Means with FastText combination was identified as the most effective approach based on all three evaluation metrics, with a Silhouette Score of 0.64, a DB-Index of 0.41, and a CH-Index of 4688.86. This study provides significant guidance in selecting the optimal text representation methods and clustering algorithms for text-based data clustering applications.
Kata Kunci : Representasi Teks, Algoritma Clustering, Menu Restoran, Analisis Komparatif