Prediksi Struktur Sekunder Protein Menggunakan Arsitektur Deep Learning Berbasis Model State Space
R. Ferdian Dita Nugraha, Prof. Dr.-Ing. Mhd. Reza M. I. Pulungan, S.Si., M.Sc.
2025 | Skripsi | ILMU KOMPUTER
Penggunaan Transformer pada kasus prediksi struktur sekunder protein memiliki keterbatasan pada kompleksitasnya yang bertumbuh secara kuadratik seiring panjang sekuens asam amino. Kompleksitas komputasi ini disebabkan karena mekanisme Attention bekerja secara kuadratik. Pada penelitian ini, model state space, yaitu Mamba (S6), digunakan sebagai pengganti Transformer dengan mekanisme Attention mengingat pertumbuhan kompleksitasnya yang linier sesuai dengan ukuran input. Dengan memanfaatkan asam amino dan informasi evolusioner struktur sekunder protein serta metode pengkodean ordinal, dibangun sebuah model deep learning menggunakan Mamba sebagai komponen utamanya. Melalui eksperimen ini, didapatkan model berbasis Mamba yang mampu mempertahankan akurasi tinggi pada berbagai panjang sekuens protein yang dibuktikan dengan akurasi Q3 dan Q8 sebesar 92.13?n 79.74%. Model tersebut juga mampu mengungguli beberapa model lain berbasis CNN, LSTM, serta Attention pada dataset yang sama.
The use of Transformer in the case of protein secondary structure prediction is limited by its complexity, which grows quadratically with the length of amino acid sequences. This computational complexity is because the Attention mechanism works quadratically. In this study, a state space model, Mamba (S6), was used instead of Transformer with Attention mechanism since its complexity growth is linear according to the input size. By utilizing amino acid and protein secondary structure evolutionary information and ordinal coding method, a deep learning model using Mamba as the main component was built. Through this experiment, we found that the Mamba-based model is able to maintain high accuracy over a wide range of protein sequence lengths as evidenced by Q3 and Q8 accuracies of 92.13% and 79.74%, respectively. The model was also able to outperform several CNN, LSTM, and Attention-based models on the same dataset.
Kata Kunci : Struktur Sekunder Protein, Asam Amino, PSSM, Sequence-to-Sequence, State Space Model