一個Python開源項目-騰訊哈勃沙箱源碼剖析(上)

時間 2019-12-11

標籤一個 python 開源項目騰訊哈勃源碼剖析欄目 Python 简体版

原文原文鏈接

前言

2019年來了，2020年還會遠嗎？請把下一年的年終獎發一下，謝謝。。。html

回顧逝去的2018年，最大的改變是從一名學生變成了一位工做者，不敢說本身多麼的職業化，可是正在努力往那個方向走。python

之前想的更可能是嘗試，如今須要考慮的更可能是落地。學校和公司仍是有很大的不同，學到了不少東西。linux

2019年了，新年新氣象，給你們宣佈一下」七夜安全博客「今年的規劃：git

1. 2019年再也不接任何商業廣告(文末騰訊廣告除外)，純粹輸出安全技術乾貨。github

2. 2019年每週至少兩篇原創圖文，也就是說每月至少八篇文章。web

3. 2019年每篇圖文都再也不單獨開讚揚，統一在每月1號開讚揚，並回顧上個月的內容，簡稱收租，你們以爲上個月的文章不錯，就多讚揚便可shell

4. 2019年的主題是二進制安全，至少上半年是這樣，包括木馬的設計與檢測方面，會按照系列和專題發佈文章。安全

廢話很少說，新的一年就從哈勃沙箱提及，用來檢測linux惡意文件。bash

哈勃沙箱

今天說的哈勃沙箱是騰訊哈勃檢測系統中,linux惡意文件檢測部分的開源代碼。github地址爲：markdown

https://github.com/Tencent/HaboMalHunter

今天是源碼剖析的第一篇，目標是簡要介紹一下沙箱使用的檢測手段和主要技術點。從github中輸出的html報表裏，監控的信息仍是挺豐富的。這裏只截取一部分，根據github中的說明，你們很容易就能夠搭建一個沙箱。

靜態檢測

在哈勃沙箱的代碼目錄中，static目錄下即爲靜態檢測的代碼，代碼很清晰。靜態檢測的本質是特徵碼匹配，對已知的惡意文件進行快速匹配進而查殺，若是能在靜態檢測層面發現惡意代碼，就不須要動態分析了，這樣速度就會快不少。

從static_analyzer.py來看，哈勃linux沙箱靜態檢測，獲取的信息主要有六個方面：

1. 文件類型信息

經過file命令獲取文件信息，好比是二進制仍是其餘類型文件，在linux中是沒法經過後綴判斷它是什麼文件的。

2. 文件hash比對

對於已知的惡意文件都有相應的hash庫，方便快速比對。哈勃主要計算文件的md5,sha1,sha256,這是一種絕對匹配方式。

還有一種方式是計算文件的ssdeep值，這個在我以前在公衆號講webshell檢測時講過這個，這個值能夠經過類似度判斷惡意文件的一些變形。

3. exiftool信息

獲取文件屬性信息，經過exiftool工具來實現，內容包括修改時間，建立時間等等。

4. 文件大小

文件大小也是一個輔助判斷的依據，畢竟木馬文件不會很大，幾兆的木馬文件上傳也是費事。

5. yara模糊過濾

YARA是一款旨在幫助惡意軟件研究人員識別和分類惡意軟件樣本的開源工具，使用YARA能夠基於文本或二進制模式建立惡意軟件家族描述信息。

YARA的每一條描述或規則都由一系列字符串和一個布爾型表達式構成，並闡述其邏輯。YARA規則能夠提交給文件或在運行進程，以幫助研究人員識別其是否屬於某個已進行規則描述的惡意軟件家族。好比下面這個例子：

rule silent_banker : banker
{
    meta:
        description = "This is just an example"
        thread_level = 3
        in_the_wild = true
    strings:
        $a = {6A 40 68 00 30 00 00 6A 14 8D 91}
        $b = {8D 4D B0 2B C1 83 C0 27 99 6A 4E 59 F7 F9}
        $c = "UVODFRYSIHLNWPEJXQZAKCBGMT"
    condition:
        $a or $b or $c
}

　　實現代碼爲：

6. 查殼

通常的惡意文件，爲了防止被逆向人員分析，都會加殼的。

哈勃主要是判斷了是不是upx殼。若是是upx,則進行解壓。判斷是upx殼的方法很簡單，直接使用upx進行解壓，返回是否成功。

接着提取如下信息：