Deteksi Audio Deepfake Menggunakan Constant Q Transform dan Teknik Augmentasi Data Dinamis
Fayza Nizma Safaya Harda, Dr. Sri Mulyana, M.Kom.
2025 | Skripsi | ILMU KOMPUTER
Dengan perkembangan teknologi kecerdasan buatan (AI), teknologi deepfake audio seperti Text-to-Speech (TTS) dan Voice Conversion (VC) telah digunakan untuk meningkatkan kenyamanan dalam berbagai aplikasi. Namun, teknologi ini memiliki potensi risiko yang besar, termasuk penyalahgunaan untuk kejahatan seperti penipuan finansial. Salah satu tantangan utama dalam deteksi audio deepfake adalah kemampuan model untuk mengenali berbagai metode pemalsuan yang belum diketahui sebelumnya, terutama ketika model diuji dengan data dari domain atau jenis serangan yang berbeda.
Penelitian ini mengusulkan kombinasi metode ekstraksi fitur menggunakan Constant Q Transform (CQT), klasifikasi dengan Light Convolutional Neural Network (LCNN), dan teknik augmentasi data seperti MixUp, CutMix, dan ShuffleMix. Pendekatan ini dirancang untuk meningkatkan kemampuan generalisasi model deteksi audio deepfake dengan menghasilkan distribusi data yang lebih beragam serta mengurangi risiko overfitting. Model diuji menggunakan dataset ASVspoof 2019 Logical Access, sedangkan dataset ASVspoof 2021 Deepfake digunakan untuk pengujian cross-dataset.
Hasil penelitian menunjukkan bahwa kombinasi metode yang diusulkan berhasil meningkatkan performa deteksi audio deepfake. Teknik augmentasi data terbukti efektif, dengan CutMix memberikan penurunan Equal Error Rate (EER) ±1% pada dataset ASVspoof 2019 dan ShuffleMix memberikan penurunan EER ±4% pada dataset ASVspoof 2021.
Kata Kunci : audio deepfake detection, constant q transform, light convolutional neural network (lcnn), data augmentation, voice conversion