Komposisi Musik pada Protokol Musical Instrument Digital Interface Menggunakan Long Short-Term Memory Recurrent Neural Network
Lantang Satriatama, Afiahayati, S.Kom., M.Kom., Ph.D.
2019 | Skripsi | S1 ILMU KOMPUTERSalah satu perkembangan teknologi pada musik adalah penggunaan protokol Musical Instrument Digital Interface (MIDI) sebagai protokol digital untuk penyimpanan notasi musik. Proses komposisi pada MIDI juga sudah berkembang, salah satunya adalah penggunaan proses pembelajaran mesin dengan model Long Short-Term Memory (LSTM) untuk komposisi musik. Namun sebagian besar peneliti menggunakan representasi per durasi not terkecil (frame) sebagai input model, sesuatu yang berbeda dengan standar notasi musik per not (notasi balok, ABC, dll). Terdapat penelitian yang sudah menggunakan representasi per not lagu dengan fitur delta, durasi, dan pitch, namun proses prediksinya masih dilakukan secara satu per satu untuk setiap fitur dalam sebuah not. Pada penelitian ini, dibangun sebuah model LSTM yang mampu memprediksi semua fitur dalam sebuah not dalam satu langkah, dengan menggunakan batch normalization dan dropout sebagai metode normalisasi model. Setelah dilakukan proses latih, validasi, dan uji, model berhasil mendapatkan akurasi fitur (delta, durasi, dan pitch) sebesar 90,88%, 74,44%, dan 33,10% untuk dataset MIDI homogen (dengan struktur mirip antar lagu) dan sebesar 84,02%, 73,93%, dan 33,80% untuk dataset MIDI heterogen (dengan struktur berbeda-beda antar lagu).
One of technological advancement in music is the use of Musical Instrument Digital Interface (MIDI) as protocol to save musical notation. Music composition with MIDI is also developing, one of them is the usage of machine learning with Long Short-Term Memory (LSTM) model for music composition. But most researcher are using per frame representation for model inputs, something that is different from standard per note music notation (staff notation, ABC, etc). There are some research who already use per note representation with delta, duration, and pitch as note features, but the prediction of the features in a note is still predicted one by one. In this research, we created a LSTM model who can predict all features in a note at the same time (within a single timestep) with batch normalization and dropout for its normalization methods. After the model went through training, validation, and testing phase, the model successfully achieved features (delta, duration, and pitch) accuracy 90.88%, 74.44%, and 33.10% for homogen MIDI dataset (with similar structure between each songs) and 84.02%, 73.93%, and 33.80% for heterogen MIDI dataset (with different structure between each songs).
Kata Kunci : MIDI, LSTM, Musik, Komposisi