Laporkan Masalah

Modifikasi Particle Swarm Optimization Untuk Seleksi Fitur Pada Model Multilayer Ensemble Untuk Klasifikasi Metilasi Dna

Abdul Ghoffar Lugas Aga Perwira, 1. Ibu Aina Musdholifah, S.Kom., M.Kom., Ph.D

2026 | Tesis | MAGISTER KECERDASAN ARTIFISIAL

Identifikasi situs N4-metilsitosin (4mC) pada DNA merupakan permasalahan penting dalam studi epigenetik, namun metode eksperimental bersifat mahal dan tidak efisien. Pendekatan pembelajaran mesin menjadi alternatif yang menjanjikan, tetapi tingginya kompleksitas data biologis yang ditandai oleh dimensi intrinsik tinggi, redundansi fitur, dan overlap kelas sering menurunkan performa model serta menyebabkan konvergensi prematur pada metode optimasi konvensional.

Penelitian ini mengusulkan model klasifikasi 4mC berbasis seleksi fitur menggunakan Particle Swarm Optimization (PSO) varian, yaitu HPSO-SCAC, yang dikombinasikan dengan Multilayer Ensemble Model (MEM). Seleksi fitur bertujuan mereduksi kompleksitas data dan meningkatkan efisiensi komputasi, sedangkan MEM digunakan untuk meningkatkan akurasi klasifikasi secara bertahap. Eksperimen dilakukan pada enam dataset DNA dari spesies berbeda menggunakan fitur biologis hasil ekstraksi sekuens DNA dan protein.

Hasil eksperimen menunjukkan bahwa model baseline menghasilkan akurasi awal pada kisaran 84–88%. Penerapan seleksi fitur berbasis PSO mampu mereduksi jumlah fitur hingga 37–50?ri fitur awal, yang berdampak pada peningkatan efisiensi pelatihan model. Integrasi seleksi fitur dengan MEM meningkatkan akurasi menjadi sekitar 89–91% menggunakan PSO, dan mencapai performa terbaik menggunakan HPSO-SCAC dengan akurasi tertinggi 96 % pada dataset E. coli serta 88–92 persen pada dataset lainnya. HPSO-SCAC menunjukkan performa paling stabil, khususnya pada dataset dengan kompleksitas tinggi.

Secara keseluruhan, penelitian ini membuktikan bahwa kombinasi seleksi fitur berbasis PSO adaptif dan Multilayer Ensemble Model mampu meningkatkan akurasi sekaligus efisiensi model klasifikasi 4mC, dengan performa yang bergantung pada karakteristik kompleksitas data biologis.

 

Identification of N4-methylcytosine (4mC) sites in DNA is a crucial issue in epigenetic studies, but experimental methods are expensive and inefficient. Machine learning approaches offer a promising alternative, but the high complexity of biological data, characterized by high intrinsic dimensionality, feature redundancy, and class overlap, often degrades model performance and leads to premature convergence in conventional optimization methods.

This study proposes a feature selection-based 4mC classification model using a Particle Swarm Optimization (PSO) variant, HPSO-SCAC, combined with a Multilayer Ensemble Model (MEM). Feature selection aims to reduce data complexity and improve computational efficiency, while MEM is used to gradually improve classification accuracy. Experiments were conducted on six DNA datasets from different species using biological features extracted from DNA and protein sequences.

Experimental results showed that the baseline model produced an initial accuracy in the range of 84–88%. The application of PSO-based feature selection reduced the number of features by 37–50% of the initial number, resulting in improved model training efficiency. The integration of feature selection with MEM improved accuracy to around 89–91% using PSO, and achieved the best performance using HPSO-SCAC, with a peak accuracy of 96% on the E. coli dataset and 88–92% on other datasets. HPSO-SCAC demonstrated the most stable performance, especially on datasets with high complexity.

Overall, this study demonstrates that the combination of adaptive PSO-based feature selection and a Multilayer Ensemble Model can improve both the accuracy and efficiency of the 4mC classification model, with performance dependent on the complexity of the biological data.

Kata Kunci : HPSO, PSO, Optimasi, Metilasi DNA, Ensamble Model

  1. S2-2026-526067-abstract.pdf  
  2. S2-2026-526067-bibliography.pdf  
  3. S2-2026-526067-tableofcontent.pdf  
  4. S2-2026-526067-title.pdf