A HYBRID CLASSIFICATION METHOD FOR ACTION RECOGNITION AND CORRECTION LEARNING ERHU AS AN EXAMPLE
ADITYA PERMANA, Professor Timothy K. Shih, Aina Musdholifah, S.Kom., M.Kom. Ph.D., Anny Kartika Sari, S.Si., M.Sc., Ph.D
2022 | Tesis | MAGISTER ILMU KOMPUTERAction recognition merupakan salah satu bentuk penerapan metode deep learning yang saat ini digunakan dalam bidang yang lebih luas terkait dengan teknologi informasi, olahraga, dan seni. Erhu adalah alat musik petik yang berasal dari China. Dalam memainkan alat musik ini terdapat aturan bagaimana memposisikan tubuh pemain dan memegang alat musik dengan benar. Kami membutuhkan sebuah sistem untuk mendeteksi pergerakan setiap pemain Erhu untuk memenuhi kebutuhan tersebut. Sehingga pada penelitian ini akan membahas pengenalan aksi pada video menggunakan tiga metode yaitu 3D-CNN, YOLOv3, dan GCN. Metode 3D-CNN merupakan metode yang memiliki basis CNN. CNN merupakan metode yang biasa digunakan untuk melakukan pengolahan citra. 3DCNN telah terbukti efektif dalam menangkap informasi gerakan dari frame video terus menerus. Untuk meningkatkan kemampuan menangkap setiap informasi yang tersimpan dalam setiap gerakan, diperlukan kombinasi lapisan LSTM dalam model 3D-CNN. LSTM adalah RNN lanjutan, jaringan sekuensial. Ia mampu menangani masalah gradien hilang yang dihadapi oleh RNN. Metode lain yang digunakan dalam penelitian ini yang memiliki kemampuan dalam pengolahan citra adalah YOLOv3. YOLOv3 merupakan pendeteksi objek dengan tingkat akurasi yang relatif baik dan dapat mendeteksi objek secara real-time. Kemudian untuk memaksimalkan kinerja YOLOv3, penelitian ini akan menggabungkan YOLOv3 dengan GCN sehingga kita dapat menggunakan body key point untuk membantu metode YOLOv3 lebih mudah dalam klasifikasi. GCN melakukan konvolusi spasial dengan menggabungkan beberapa fitur node di sekitar tetangga lokal pada grafik. Penelitian ini menggunakan video RGB sebagai dataset, dan terdapat tiga bagian utama dalam preprocessing dan ekstraksi fitur. Tiga bagian utama adalah badan, tiang erhu, dan busur. Untuk melakukan preprocessing dan ekstraksi ciri, penelitian ini mengusulkan dua pendekatan. Pendekatan pertama menggunakan proses segmentasi pada input video dengan memanfaatkan metode MaskRCNN. Pendekatan kedua menggunakan body landmark untuk melakukan preprocessing dan ekstraksi fitur pada segmen body. Sebaliknya, segmen erhu dan busur menggunakan algoritma Hough Lines. Ketiga bagian utama tersebut kemudian akan dibagi menjadi beberapa bagian sesuai dengan kelas yang telah ditentukan. Selanjutnya untuk proses klasifikasi, penelitian ini mengusulkan dua algoritma yang akan digunakan yaitu deep learning. Penelitian ini akan menggabungkan semua metode deep learning dengan metode algoritma pengolahan citra tradisional. Proses algoritma kombinasi ini akan menghasilkan output pesan error dari setiap gerakan yang ditampilkan oleh pemain erhu.
Action recognition is one form of implementation of the deep learning method, which is currently used in a wider field related to information technology, sports, and the arts. Erhu is a stringed instrument originating from China. In playing this instrument, there are rules on how to position the player's body and hold the instrument correctly. We need a system to detect every Erhu player's movement to meet these needs. So that in this study will discuss action recognition on video using three methods such as 3D-CNN, YOLOv3, and GCN. The 3D-CNN method is a method that has a CNN base. CNN is a method commonly used to perform image processing. 3DCNN has been proved effective in capturing motion information from continuous video frames. To improve the ability to capture every information stored in every movement, combining an LSTM layer in the 3D-CNN model is necessary. LSTM is an advanced RNN, a sequential network. It is capable of handling the vanishing gradient problem faced by RNN. Another method used in this study that has the ability in image processing is YOLOv3. YOLOv3 is an object detector with a relatively good accuracy level and can detect objects in real-time. Then to maximize the performance of YOLOv3, this study will combine YOLOv3 with GCN so that we can use the body key points to help YOLOv3 methods be easier for classification. GCN performs spatial convolution by merging several features of nodes around local neighbors on the graph. This research uses RGB video as a dataset, and there are three main parts in preprocessing and feature extraction. The three main parts are the body, erhu pole, and bow. To perform preprocessing and feature extraction, this study proposes two approaches. The first approach uses a segmentation process on the input video by utilizing the MaskRCNN method. The second approach uses a body landmark to perform preprocessing and feature extraction on the body segment. In contrast, the erhu and bow segments use the Hough Lines algorithm. The three main sections will then be divided into several sections according to the class that has been defined. Furthermore, for the classification process, this study proposes two algorithms to be used, namely, deep learning. This study will combine all deep learning methods with traditional image processing algorithm methods. These combination algorithm processes will produce an error message output from every movement displayed by the erhu player.
Kata Kunci : Action Recognition, CNN, 3D-CNN, LSTM, YOLOv3, GCN