Laporkan Masalah

Model Klasifikasi Audio Kendaraan Prioritas yang Efisien dalam Penggunaan Memori dan Waktu Inferensi

Dwi Ahmad Dzulhijjah, Afiahayati, S.Kom., M.Cs., Ph.D.

2025 | Tesis | MAGISTER KECERDASAN ARTIFISIAL

Kendaraan prioritas seperti ambulans dan pemadam kebakaran memerlukan prioritas lalu lintas pada keadaan darurat. Sistem deteksi sirine berbasis audio sebelumnya telah menunjukkan akurasi tinggi (?95%) dengan menggunakan ekstraksi fitur multi-domain (waktu, frekuensi, dan Doppler) serta teknik ensemble. Namun, pendekatan berbasis multi-domain dan stacked ensemble tersebut memiliki kompleksitas komputasi yang tinggi, menghasilkan total run time inferensi selama 37,4 ms dan penggunaan memori sebesar 14 MB.

Penelitian ini mengusulkan penggunaan Mel-Filterbank Energy (MFE) sebagai metode ekstraksi fitur yang lebih efisien. MFE mengekstrak energi spektral langsung dari deret mel-filterbank tanpa memerlukan tahap transformasi DCT seperti pada MFCC, sehingga menurunkan kompleksitas komputasi sekaligus tetap mempertahankan informasi spektral yang relevan. Dengan menggunakan dataset Emergency Vehicle Siren Sounds yang berisi 600 sampel audio, dikembangkan beberapa pipeline baru yang memanfaatkan kombinasi fitur Statistical MFE dan Raw MFE untuk model ensemble, serta arsitektur 1D-CNN yang ringan. Evaluasi dilakukan menggunakan 5-fold stratified cross-validation dengan mengukur akurasi dan F1-score klasifikasi, waktu inferensi, serta konsumsi memori baik pada tahap ekstraksi fitur maupun model.

Pipeline usulan berbasis Selected Statistical MFE dengan SVM yang telah dioptimasi mencapai akurasi 97,0% (±1,0%) dengan run time total sekitar 4,1 ms per sampel dan penggunaan memori total 1,9 MB. Model 1D-CNN berbasis Statistical MFE mencapai akurasi 93,2% (±1,2%) dengan waktu inferensi sekitar 6,3 ms dan penggunaan memori 13,2 MB. Usulan berbasis MFE mampu meningkatkan akurasi sebesar +2,0% (dari 95,0% menjadi 97,0%), mengurangi waktu inferensi total hingga 89,0% (dari 37,4 ms menjadi 4,1 ms), dan menurunkan penggunaan memori hingga 86,4% (dari 14 MB menjadi 1,9 MB). Hasil hyperparameter tuning menunjukkan peningkatkan performa model baseline sebesar 1,3% model usulan sebesar 1,0%.

Priority vehicles such as ambulances and fire trucks require traffic priority in emergency situations. Previous audio-based siren detection systems have achieved high accuracy (?95%) using multi-domain feature extraction (time, frequency, and Doppler) and ensemble techniques. However, such multi-domain and stacked ensemble approaches exhibit high computational complexity, resulting in a total inference run time of 37.4 ms and memory usage of 14 MB.

This study proposes the use of Mel-Filterbank Energy (MFE) as a more efficient feature extraction method. MFE extracts spectral energy directly from the mel-filterbank array without requiring the Discrete Cosine Transform (DCT) step as in MFCC, thereby reducing computational complexity while preserving relevant spectral information. Using the Emergency Vehicle Siren Sounds dataset containing 600 audio samples, several new pipelines were developed that exploit combinations of Statistical MFE and Raw MFE features for ensemble models, as well as lightweight 1D-CNN architectures. The evaluation was conducted using 5-fold stratified cross-validation, measuring classification accuracy and F1-score, inference time, and memory consumption for both the feature extraction and model stages.

The proposed pipeline based on Selected Statistical MFE with optimized SVM achieves an accuracy of 97.0% (±1.0%) with a total run time of approximately 4.1 ms per sample and total memory usage of 1.9 MB. The 1D-CNN model based on Statistical MFE attains an accuracy of 93.2% (±1.2%) with an inference time of approximately 6.3 ms and memory usage of 13.2 MB. The proposed MFE-based approach improves accuracy by +2.0% (from 95.0% to 97.0%), reduces total inference time by 89.0% (from 37.4 ms to 4.1 ms), and decreases memory usage by 86.4% (from 14 MB to 1.9 MB). Hyperparameter tuning results demonstrate performance improvements of 1.3% for the baseline model and 1.0% for the proposed model.

Kata Kunci : Klasifikasi Audio, Kendaraan Prioritas, Mel-filterbank Energy, Ensemble Learning, 1D CNN

  1. S2-2025-530908-abstract.pdf  
  2. S2-2025-530908-bibliography.pdf  
  3. S2-2025-530908-tableofcontent.pdf  
  4. S2-2025-530908-title.pdf  
  5. S2-2026-530908-abstract.pdf