A Deep Learning Approach to Speech-Based Emotion Recognition: 1D CNN–GRU with Attention Using the RAVDESS Dataset

Reza Aurelio Brilliansah

Reza Aurelio Brilliansah, Prof. Dr. Azhari, MT

2025 | Skripsi | ILMU KOMPUTER

Abstrak
File Pdf

Pengenalan Emosi Ucapan (Speech Emotion Recognition/SER) adalah bidang yang menantang dalam pemrosesan sinyal audio yang bertujuan untuk mengidentifikasi keadaan emosional secara otomatis dari ucapan manusia. Skripsi ini menyajikan sebuah sistem SER yang dirancang untuk mengklasifikasikan delapan emosi diskrit: netral, bahagia, sedih, marah, takut, jijik, terkejut, dan tidak lengkap dalam ucapan bahasa Inggris. Pendekatan yang diusulkan mengintegrasikan teknik ekstraksi fitur spektrogram Mel dan koefisien MFCC untuk menangkap karakteristik audio yang relevan secara perseptual. Sistem ini memanfaatkan arsitektur pembelajaran mendalam hibrida yang menggabungkan Convolutional Neural Network (CNN) dan Bidirectional Gated Recurrent Unit (Bi-GRU) dengan mekanisme atensi, memungkinkan model untuk mempelajari pola spasial dan temporal dalam ucapan secara efektif. Untuk mengoptimalkan kinerja model, dilakukan Full Model Selection dengan Particle Swarm Optimization, yang mengotomatiskan pencarian konfigurasi arsitektur dan hiperparameter yang optimal. Hasil eksperimen, yang divalidasi melalui 5-Fold Cross Validation terstratifikasi dan analisis statistik ANOVA, menunjukkan bahwa model fusi yang diusulkan mencapai akurasi 86.05%±1.97%, menunjukkan peningkatan dibandingkan dengan sistem SER dasar dan mutakhir. Dengan menggunakan CMDS dan LDA untuk analisis data, hasil model dalam kinerja emosi per kelas dapat dijelaskan. Model akhir memproses sampel audio dengan waktu inferensi rata-rata kurang dari 30ms, menjadikannya cocok untuk aplikasi latensi rendah.

Speech Emotion Recognition (SER) is a challenging area of audio signal processing that seeks to automatically identify emotional states from human speech. This undergraduate thesis presents a SER system designed to classify eight discrete emotions: neutral, calm, happy, sad, angry, fearful, disgust, and surprise in English speech. The proposed approach integrates Mel spectrogram and MFCC coefficient feature extraction techniques to capture perceptually relevant audio characteristics. The system leverages a hybrid deep learning architecture that fuses Convolutional Neural Networks (CNNs) and Bi-Directional Gated Recurrent Units (Bi-GRUs) with attention mechanisms, enabling the model to effectively learn both spatial and temporal patterns in speech. To optimize model performance, Full Model Selection is performed with Particle Swarm Optimization, automating the search for optimal architectural configurations and hyperparameters. Experimental results, validated through stratified 5-fold cross-validation and ANOVA statistical analysis, demonstrate that the proposed fusion model achieves 86.05%±1.97 accuracy, outperforming several baseline and state-of-the-art SER systems while achieving comparable performance to real-time transformer-based approaches. Data analysis using CMDS and LDA provided insights into feature separability and enabled interpretation of per-class emotion performance. The final model processes audio samples with an average inference time of less than 30 ms, making it suitable for low-latency applications.

Kata Kunci : Speech Emotion Recognition, Signal Processing, Deep Learning

S1-2025-475039-abstract.pdf
S1-2025-475039-bibliography.pdf
S1-2025-475039-tableofcontent.pdf
S1-2025-475039-title.pdf
S1-2026-475039-abstract.pdf
S1-2026-475039-bibliography.pdf
S1-2026-475039-tableofcontent.pdf
S1-2026-475039-title.pdf

LAYANAN

E-Resources

Quick Access