A Hybrid Deep Learning Approach Using 1D-CNN with Multi-Head Attention for Accurate Eye Movement Classification
Achmad Solaeman, Dr.Eng. Ir. Sunu Wibirama, S.T., M.Eng., IPM.; Syukron Abu Ishaq Alfarozi, S.T., Ph.D.
2025 | Tesis | S2 Teknologi Informasi
Teknologi pelacakan mata memainkan peran penting dalam aplikasi asistif dengan memungkinkan interaksi berbasis pandangan bagi individu dengan keterbatasan motorik. Teknologi ini memungkinkan pengguna untuk mengendalikan antarmuka digital hanya dengan menggunakan gerakan mata, sehingga mendukung interaksi tanpa sentuhan dan meningkatkan aksesibilitas digital.
Sistem interaksi pandangan tradisional umumnya bergantung pada mekanisme berbasis fiksasi, yang memerlukan proses kalibrasi secara berkala untuk menjaga akurasi. Proses ini dapat menjadi merepotkan dan melelahkan, terutama bagi pengguna dengan kontrol motorik terbatas atau kestabilan visual yang rendah.
Smooth pursuit menawarkan alternatif yang menarik sebagai masukan berbasis pandangan. Dengan memungkinkan pengguna mengikuti target yang bergerak secara alami dan terus-menerus, pendekatan ini mendukung interaksi yang intuitif dan bebas kalibrasi. Modul ini sangat cocok untuk pengguna dengan keterbatasan motorik karena mengurangi ketergantungan pada fiksasi yang berlangsung lama dan lebih selaras dengan perilaku alami mata. Namun, dalam praktiknya, smooth pursuit jarang terjadi secara terpisah, karena data gerakan mata sering kali mencakup juga fixation, saccade, dan blink/noise. Oleh karena itu, klasifikasi gerakan mata yang akurat diperlukan untuk mendeteksi smooth pursuit secara andal dan mendukung interaksi berbasis pandangan yang tangguh.
Penelitian ini menggunakan dataset GazeCom dan HMR untuk mengatasi keterbatasan dalam klasifikasi smooth pursuit. Beberapa model hybrid deep learning terkini telah melaporkan F1 score hingga 82,89% pada dataset GazeCom, tetapi memerlukan jendela input temporal yang panjang hingga 1500 milidetik. Hal ini meningkatkan kompleksitas model dan membatasi penerapannya pada sistem real-time atau perangkat dengan sumber daya terbatas.
Untuk mengatasi keterbatasan tersebut, penelitian ini mengusulkan model hybrid deep learning yang ringan, yang mengintegrasikan one-dimensional convolutional neural network (1D-CNN) dengan multi-head self-attention. Arsitektur ini secara khusus dirancang untuk tidak memerlukan akses ke data waktu depan (future time steps), sehingga memungkinkan inferensi dengan latensi rendah dalam skenario real-time. Model ini beroperasi pada jendela waktu yang sangat singkat, yaitu 20 milidetik—setara dengan lima sampel pada GazeCom (sampling rate 250 Hz) dan empat sampel pada HMR (sampling rate 200 Hz)—sehingga secara signifikan mengurangi kebutuhan memori dan beban komputasi.
Evaluasi dilakukan menggunakan stratified 5-fold cross-validation, dan model ini berhasil mencapai F1 score sebesar 91,89% pada GazeCom dan 95,51% pada HMR untuk klasifikasi smooth pursuit. Selain itu, model ini juga mempertahankan performa yang kuat dalam mendeteksi jenis gerakan mata lainnya seperti fixation, saccade, dan blink/noise.
Temuan ini menunjukkan bahwa klasifikasi gerakan mata yang akurat dan efisien dapat dicapai hanya dengan input temporal yang minimal. Arsitektur yang diusulkan memberikan solusi yang menjanjikan untuk interaksi berbasis pandangan secara real-time dalam kondisi terbatas sumber daya, serta mendukung pengembangan aplikasi praktis bagi individu dengan keterbatasan motorik dalam ranah teknologi asistif dan interaksi manusia-komputer.
Eye tracking technology plays a critical role in assistive applications by enabling gaze-based interaction for individuals with motor impairments. It allows users to control digital interfaces using only their eye movements, promoting hands-free interaction and digital accessibility. Traditional gaze interaction systems typically rely on fixation-based mechanisms, which require frequent recalibration to maintain accuracy. This process can be cumbersome and fatiguing for users, especially those with limited motor control or visual instability.
Smooth pursuit offers a compelling alternative for gaze-based input. By allowing users to follow moving targets naturally and continuously, it enables calibration-free and intuitive interaction. This modality is particularly well-suited for users with motor impairments, as it reduces the reliance on sustained gaze fixation and aligns with natural ocular behavior. However, smooth pursuit rarely occurs in isolation, as eye movement data in practical settings often include fixations, saccades, and blinks. As a result, accurate eye movement classification is necessary to reliably detect smooth pursuit and support robust gaze-based interaction.
This study utilizes GazeCom and HMR datasets to address limitations in smooth pursuit classification. Recent hybrid deep learning models report F1 scores of up to 82.89% on the GazeCom dataset but require long temporal input windows of 1500 milliseconds, increasing model complexity and limiting their applicability in real-time or embedded systems.
To address these limitations, this work proposes a lightweight hybrid deep learning model that integrates one-dimensional convolutional neural networks (1D-CNN) with multi-head self-attention. The architecture is specifically adapted for online applications and does not require access to future time steps, allowing low-latency inference in real-time scenarios. It operates on a compact temporal window of 20 milliseconds—corresponding to five samples in GazeCom sampled at 250 Hz and four samples in HMR sampled at 200 Hz—thereby significantly reducing memory requirements and computational load.
The model is evaluated using stratified 5-fold cross-validation. It achieves F1 scores of 91.89% and 95.51% for smooth pursuit classification on GazeCom and HMR, respectively, while also maintaining strong performance across other event types such as fixation, saccade, and blink detection.
These findings demonstrate that accurate and efficient eye movement classification can be achieved using minimal temporal input. The proposed architecture offers a promising solution for real-time, resource-constrained gaze-based interaction, particularly supporting the development of practical applications for individuals with motor impairments in assistive technology and human-computer interaction.
Kata Kunci : Eye tracking, 1D-CNN, multi-head self-attention, hybrid deep learning model