BINARY STATIC ANALYSIS THROUGH INSTRUCTION AND OPERAND EXTRACTION AND AGGLOMERATIVE HIERARCHICAL CLUSTERING
CHRYST MARK REAL RUMAHORBO, Prof. Dr.-Ing. Mhd. Reza M. I. Pulun-gan, S.Si., M.Sc.
2024 | Skripsi | ILMU KOMPUTER
Permintaan yang semakin meningkat untuk memastikan kode andal, efisien, dan aman telah mendorong pertumbuhan alat analisis kode biner statis yang populer. Alat seperti IDA Pro dan perintah objdump membantu analis dengan membongkar biner menjadi format bahasa opcode/assembly untuk mendukung analisis kode statis manual. Meskipun alat-alat tersebut sudah ada, menganalisis biner besar secara manual memerlukan banyak waktu dan sumber daya. Mudah untuk melewatkan potensi cacat atau ketidakefisienan kode. Makalah ini menguraikan metodologi berbasis data yang ringan yang menggunakan Correlated Data Flow Graphs (CDFGs) untuk mengidentifikasi ketidakteraturan kode sehingga waktu analisis dan sumber daya komputasi yang diperlukan dapat diminimalkan. Dengan menggabungkan analisis graf dan teknik unsupervised learning - ini menghemat waktu dan sumber daya komputasi bagi analis. Dengan mengenali pola aliran yang paling penting, analis dapat fokus pada pola aliran yang paling signifikan secara statistik, meningkatkan akurasi dan efisiensi.
The ever-increasing need to make sure code is reliable, efficient, and secure has fueled the growth of popular static binary code analysis tools. Tools like IDA Pro and objdump command help analysts by disassembling binaries into an opcode/assembly language format in support of manual static code analysis. Despite the existence of such tools, analyzing large binaries manually takes a ton of time and resources. It's easy to miss potential coding flaws or inefficiencies. This paper expands on a lightweight, data-driven methodology that uses highly correlated data flow graphs (CDFGs) to identify coding irregularities such that analysis time and required computing resources are minimized. We combine graph analysis and unsupervised machine learning techniques - this saves analysts time and computing resources. By recognizing the most important flow patterns, analysts can focus on the most statistically significant flow patterns, improving accuracy and efficiency.
Kata Kunci : Agglomerative Hierarchical Clustering, Binary Static Analysis, Unsupervised Machine Learning, Correlated Data Flow Graphs, Shannon Entropy, KL-Divergence, Information Metric, Assembly Analysis