Modifikasi Particle Swarm Optimization Untuk Seleksi Fitur Pada Model Multilayer Ensemble Untuk Klasifikasi Metilasi Dna
Abdul Ghoffar Lugas Aga Perwira, 1. Ibu Aina Musdholifah, S.Kom., M.Kom., Ph.D
2026 | Tesis | MAGISTER KECERDASAN ARTIFISIAL
Identifikasi situs N4-metilsitosin (4mC) pada DNA
merupakan permasalahan penting dalam studi epigenetik, namun metode
eksperimental bersifat mahal dan tidak efisien. Pendekatan pembelajaran mesin
menjadi alternatif yang menjanjikan, tetapi tingginya kompleksitas data
biologis yang ditandai oleh dimensi intrinsik tinggi, redundansi fitur, dan
overlap kelas sering menurunkan performa model serta menyebabkan konvergensi
prematur pada metode optimasi konvensional.
Penelitian ini mengusulkan model klasifikasi 4mC berbasis
seleksi fitur menggunakan Particle Swarm Optimization (PSO) varian, yaitu
HPSO-SCAC, yang dikombinasikan dengan Multilayer Ensemble Model (MEM). Seleksi
fitur bertujuan mereduksi kompleksitas data dan meningkatkan efisiensi
komputasi, sedangkan MEM digunakan untuk meningkatkan akurasi klasifikasi
secara bertahap. Eksperimen dilakukan pada enam dataset DNA dari spesies
berbeda menggunakan fitur biologis hasil ekstraksi sekuens DNA dan protein.
Hasil eksperimen menunjukkan bahwa model baseline
menghasilkan akurasi awal pada kisaran 84–88%. Penerapan seleksi fitur berbasis
PSO mampu mereduksi jumlah fitur hingga 37–50?ri fitur awal, yang berdampak
pada peningkatan efisiensi pelatihan model. Integrasi seleksi fitur dengan MEM
meningkatkan akurasi menjadi sekitar 89–91% menggunakan PSO, dan mencapai
performa terbaik menggunakan HPSO-SCAC dengan akurasi tertinggi 96 % pada
dataset E. coli serta 88–92 persen pada dataset lainnya. HPSO-SCAC menunjukkan
performa paling stabil, khususnya pada dataset dengan kompleksitas tinggi.
Secara keseluruhan, penelitian ini membuktikan bahwa
kombinasi seleksi fitur berbasis PSO adaptif dan Multilayer Ensemble Model
mampu meningkatkan akurasi sekaligus efisiensi model klasifikasi 4mC, dengan
performa yang bergantung pada karakteristik kompleksitas data biologis.
Identification of N4-methylcytosine (4mC) sites in DNA is a crucial issue in epigenetic studies, but experimental methods are expensive and inefficient. Machine learning approaches offer a promising alternative, but the high complexity of biological data, characterized by high intrinsic dimensionality, feature redundancy, and class overlap, often degrades model performance and leads to premature convergence in conventional optimization methods.
This study proposes a feature selection-based 4mC classification model using a Particle Swarm Optimization (PSO) variant, HPSO-SCAC, combined with a Multilayer Ensemble Model (MEM). Feature selection aims to reduce data complexity and improve computational efficiency, while MEM is used to gradually improve classification accuracy. Experiments were conducted on six DNA datasets from different species using biological features extracted from DNA and protein sequences.
Experimental results showed that the baseline model produced an initial accuracy in the range of 84–88%. The application of PSO-based feature selection reduced the number of features by 37–50% of the initial number, resulting in improved model training efficiency. The integration of feature selection with MEM improved accuracy to around 89–91% using PSO, and achieved the best performance using HPSO-SCAC, with a peak accuracy of 96% on the E. coli dataset and 88–92% on other datasets. HPSO-SCAC demonstrated the most stable performance, especially on datasets with high complexity.
Overall, this study demonstrates that the combination of adaptive PSO-based feature selection and a Multilayer Ensemble Model can improve both the accuracy and efficiency of the 4mC classification model, with performance dependent on the complexity of the biological data.
Kata Kunci : HPSO, PSO, Optimasi, Metilasi DNA, Ensamble Model