Paper Title: Malware Images: visualization and automatic classification
Authors: L Nataraj, S.Karthikeyan, G.Jacob, B.S.Manjunanth
Venue : ACM Proceedings of the 8th International Symposium on Visualization for Cyber Security
URL: https://doi.org/10.1145/2016904.2016908
Problem: Metode deteksi malware saat ini menggunakan analisa statik dan dinamik. Namun keduanya membutuhkan waktu yang besar dan membutuhkan resource hardware yang memadai. Selain itu juga beberapa malicious behaviour tidak dapat diamati dengan setting environment yang ada. Untuk itu perlu ada pendekatan analisa malware baru
Contribution:
- Mengajukan metode baru dalam analisa malware. Malware sampel diubah dari bentuk binary string 0 dan 1, menjadi sebuah matrix dan menjadi gambar.
- Menemukan bahwa terdapat kemiripan visual dari texture gambar dari sampel malware yang berada dalam family yang sama
- Metode yang diajukan resilient terhadap teknik obfuscation seperti encryption
Method/solution
- Binary malware dibaca sebagai sebuah vector 8 bit integer, kemudian diatur menjadi array 2 dimensi
- Vector 8 bit diubah menjadi gambar grayscale (0: black; 255 white)
- Lebar gambar fix, tingginya berbeda-beda mengikuti ukuran file
- Untuk menghitung feature texture gambar digunakan GIST, yang menggunakan dekomposisi wavelet dari gambar
- Menggunakan steerable pyramid dengan 8 orientasi dan 4 skala pada gambar
- Representasi lokal dari gambar N=20 adalah jumlah sub-band
- Untuk menangkap properti global namun tetap mendapatkan property local dihitung nilai rata-rata dari magnitude feature local : ; w(x) adalah averaging window
- Hasil representasi di downsampled menjadi 4×4 pixel;
- Dimensi GIST feature adalah 320
- Menggunakan k-NN dengan Euclidiean distance untuk klasifikasi
- Melakukan 10 fold cross validation, dimana pada setiap tes, sebuah subset random dari sebuah kelas digunakan untuk training dan testing
- Pada setiap iterasi,tes memilih secara random 90% data dari sebuah kelas pada training dan 10% pada testing
- Sampel berasal dari Anubis, diklasifikasikan menjadi beberapa family berdasarkan label dari Microsoft Security Essentials
- Dataset terdiri dari 8 family malware dengan total 1713 gambar
- GIST image feature dihitung pada setiap gamber, rata2 waktu utk menghitung feature GIST pada sebuah gambar adalah 54ms
- High dimensi GIST Feature diproyeksikan ke lower dimensional space untuk analisa
- Pengujian ditambahkan sampel 123 benign dari file system Win32 dan aplikasi
- Distribusi sampel 335 instantaccess.(A), 485 Yuner.A (B); 111 obfuscator.AD (C); 80 skintrim.N (D), 298 Fakerean(E), 88 Wintrim.BX(F), 97 VB.AT(G) dan 219 Allaple.A(H)
- Pengujian berikutnya dengan 25 family malware dengan total 9458
Main result
- Ditemukan bahwa sections malware yang berbeda menghasilkan texture gambar yang berbeda; contohnya sections text, rdata, data dan rsrc memiliki pola gambar yang berbeda
- Section .text umumnya berisi kode executable, pada kasus trojan Dontovo.A polanya bada bagian awal terlihat halus (fine grained), yang diikuti dengan zeros (hitam), yg menunjukan zero padding pada bagian akhir section
- Section .data memiliki pola uninitialized code (black patch) dan initialized data (fine grained)
- Section .rsrc yang berisi semua resource dari modul terlihat hitam
- Feature poin pada family Allaple.A, VB.AT, Wintrim.BX, Yuner.A dan Fakerean mudah dipisahkan
- NAmun pada family Instantaccess, Obfuscator.AD dan Skintrim.N agak sulit dipisahkan, dan terlihat serupa
- Menggunakan k-NN (k-3) dengan 10 fold cross validation diperoleh classification rate 0,9993 dengan standar deviasi 0,0019 dari 10 pengujian
- Dari dataset baru classification rate 0,9929 dari 10 fold cross validation dengan standar deviasi 0,002
- Family Yuner.A, VB.AT, Malex.gen!J, Autorun.K, Rbot!gen dipack dengan UPX
- Akurasi Classification 0,9718 pada 25 family
- Akurasi setelah packing 0,9808
- Dapat melakukan klasifikasi pada malware yang memasukan engine polymorphic dan section encryption
Limitation:
- Malware yang menggunakan teknik packing terklasifikasi sebagai family yang sama
- Rentan terhadap teknik relocating section binary atay menambah redundant data.