Optimasi Random Forest Dalam Data Berdimensi Tinggi Menggunakan Algoritma Genetika
Rizky Efendri, Wahyono, S.Kom., Ph.D.
2025 | Tesis | MAGISTER KECERDASAN ARTIFISIAL
Pada penelitian ini, masalah utama yang dihadapi adalah banyaknya fitur tidak relevan atau noise pada dataset berdimensi tinggi yang dapat menurunkan performa model klasifikasi. Untuk mengatasi hal ini, solusi yang diajukan adalah penggunaan Genetic Algorithm (GA) yang dipadukan dengan Random Forest (GA-RF), yang berfungsi untuk menyeleksi fitur secara efisien melalui optimasi evolusi, sehingga dapat meningkatkan akurasi klasifikasi. Berdasarkan eksperimen yang dilakukan pada berbagai dataset, termasuk Arcene, Madelon, Gisette, Dorothea, dan Dexter, hasilnya menunjukkan bahwa GA-RF sangat efektif dalam meningkatkan akurasi pada dataset dengan banyak fitur tidak relevan, seperti Madelon dan Dexter, namun tidak memberikan peningkatan yang signifikan pada dataset seperti Gisette, yang sudah memiliki struktur fitur yang optimal. Secara keseluruhan, GA-RF terbukti efektif dalam kondisi tertentu, terutama pada dataset yang banyak mengandung noise atau fitur redundan, namun pada dataset dengan fitur yang sudah optimal, metode seleksi fitur yang lebih sederhana mungkin lebih efisien
In this study, the main problem addressed is the large number of irrelevant features or noise in high-dimensional datasets, which can reduce the performance of classification models. To overcome this issue, the proposed solution is the use of a Genetic Algorithm (GA) combined with Random Forest (GA-RF). This approach performs feature selection efficiently through evolutionary optimization, thereby improving classification accuracy.
Based on experiments conducted on various datasets, including Arcene, Madelon, Gisette, Dorothea, and Dexter, the results show that GA-RF is highly effective in improving accuracy for datasets with many irrelevant features, such as Madelon and Dexter. However, it does not provide significant improvement for datasets like Gisette, which already have an optimal feature structure.
Overall, GA-RF proves to be effective under certain conditions, particularly for datasets containing substantial noise or redundant features. However, for datasets with already well-optimized feature sets, simpler feature selection methods may be more efficient.
Kata Kunci : High Dimensional Data, Machine Learning Performance, Feature Selection, Genetic Algorithm, Random Forest , Curse of Dimensionality, Data Redundancy, Irrelevant Features.