KENDALI SOFT ROBOTIC PALM MENGGUNAKAN PERINTAH SUARA BERBASIS WHISPER DAN LARGE LANGUAGE MODEL
Kukuh Bintoro, Ahmad Ataka Awwalur Rizqi, S.T., Ph.D., Prof. Ir. Oyas Wahyunggoro, M.T., Ph.D.
2025 | Tesis | S2 Teknik Elektro
Individu dengan disabilitas anggota tubuh bagian atas memerlukan alat
bantu prostetik yang tidak hanya fungsional, tetapi juga intuitif dan mudah
digunakan. Kendali konvensional sering kali mengandalkan antarmuka fisik yang
membatasi. Oleh karena itu, penelitian ini bertujuan untuk mengembangkan sebuah
sistem kendali. Soft robotic palm yang inovatif, yang dapat dioperasikan
sepenuhnya melalui perintah suara berbasis bahasa alami, sehingga meningkatkan
aksesibilitas dan kemudahan interaksi bagi pengguna.
Sistem ini dirancang dengan mengintegrasikan model Automatic Speech Recognition (ASR) Whisper untuk mengubah perintah suara menjadi teks secara akurat, dan Large Language Model (LLM) GPT-4 untuk menginterpretasikan makna dari teks tersebut. Instruksi yang dihasilkan kemudian dikirimkan ke mikrokontroler untuk mengendalikan aktuator pneumatik pada jari-jari robot berbahan silikon lunak. Kinerja sistem dievaluasi melalui pengujian terhadap 10 jenis gesture dengan empat skenario perintah yang berbeda, yaitu Keyword Command, Synonyms/Paraphrases, Short Command, dan Long/Natural Command. Selain itu, dilakukan pula pengujian waktu respons untuk mengukur latensi sistem dari akhir pengucapan perintah hingga selesainya gerakan robot, sebagai indikator kecepatan dan efisiensi kendali secara keseluruhan. Selain itu dilakukan juga evaluasi pengalaman pengguna juga dilakukan untuk menilai kelayakan sistem dari sisi pengguna akhir.
Hasil pengujian menunjukkan bahwa sistem mampu mengeksekusi perintah
suara dengan tingkat keberhasilan (success rate) rata-rata yang sangat
tinggi, yaitu 97,5?n waktu respons 4,36 detik. Dari sisi pengguna, evaluasi
yang melibatkan 23 responden menghasilkan skor kepuasan keseluruhan sebesar
92,03%, yang terkategori "sangat baik" pada aspek kemudahan, kinerja,
kenyamanan, dan relevansi. Temuan ini membuktikan bahwa sistem kendali berbasis
suara yang dikembangkan mampu merespons secara akurat dan adaptif terhadap
berbagai variasi perintah, serta menunjukkan potensi besar sebagai solusi
prostetik masa depan yang lebih cerdas dan manusiawi.
Individuals with upper limb disabilities require prosthetic aids that
are not only functional but also intuitive and easy to use. Traditional control
methods often rely on limiting physical interfaces. Therefore, this study aims
to develop an innovative soft robotic palm control system operated entirely
through natural language voice commands, thereby enhancing accessibility and
ease of interaction for users.
The system is designed by integrating the Whisper Automatic Speech
Recognition (ASR) model to accurately convert voice commands into text, and the
GPT-4 Large Language Model (LLM) to interpret the meaning of the text. The
resulting instructions are then transmitted to a microcontroller to control
pneumatic actuators in the silicone-based soft robotic fingers. The system’s
performance is evaluated through tests involving 10 types of gestures across
four different command scenarios: Keyword Command, Synonyms/Paraphrases,
Short Command, and Long/Natural Command. In
addition, response time testing is conducted to measure system latency from the
end of the spoken command to the completion of the robotic movement, serving as
an indicator of overall control speed and efficiency. Furthermore, user
experience evaluation is also carried out to assess the system's feasibility
from the end-user perspective.
The results show that the system executed commands with a very high
average success rate of 97,5% and a response time of 4,36 seconds. From the
user's perspective, feedback from 23 respondents yielded an overall
satisfaction score of 92,03%, categorized as "excellent" in terms of
ease of use, system performance, comfort, and relevance. These findings
demonstrate the system's ability to respond accurately and adaptively to a wide
variety of voice command variations, holding significant potential for the
development of smarter, more human-centered prosthetic solutions in the future.
Kata Kunci : Soft robotic palm, Whisper, Large Language Model