Cybercrime in the Deep Web

左懶 · 2015/12/11 13:57javascript

0x00 序言


深網(Deep Web)覆蓋的內容一應俱全,其中包括有動態網頁,已屏蔽網站(須要你回答問題或填寫驗證碼進行訪問),我的網站(須要登陸憑證才能進行訪問),非HTML/contextual/script內容和受限訪問網絡等等。但因爲各類緣由,Google等搜索引擎沒法索引到暗網的內容。php

諸如.BIT域名這一類受限訪問的網站所註冊的DNS(域名服務系統)根服務器不受ICANN(互聯網名稱與數字地址分配機構)管理。這些網站運行在非標準頂級域名的標準DNS服務器當中。想要訪問這些地下網絡(Darknets)須要經過Tor這類軟件來進行訪問。而這些地下網絡活動是組成深網大部分共同的利益的基礎。前端

深網的用途java

聰明人在網上購買毒品的時候是不會在普通瀏覽器輸入這些敏感的關鍵字的。所以,他須要一種不公開的IP地址和物理地址的匿名上網方式進行非法活動。一樣的,毒品的賣家也不想在網上開店後被人查出具體位置。若是註冊的域名或網站的IP地址是真實存在,那麼很容易就會被查水錶。git

除了購買毒品的需求之外還有其它不少緣由須要使用到匿名上網。好比:有人想要從政府的監控中跟他人進行祕密通信,知情人想要向記者透露爆炸性新聞但不想暴露本身的身份,某些政治制度嚴格的國家的不一樣政見人士想要安全地向全世界告知他們國家正在發生什麼事情。這些緣由都導致他們用到深網的匿名功能。web

另外,那些公衆人物想密謀暗殺他人須要保證自身不會留下什麼尾巴。其它須要保持匿名的非法服務還有相似販賣非法護照和信用卡。一樣,那些要泄露他人的私人信息的猥瑣佬也要經過匿名的方式保證自身安全。算法

表網 VS 深網windows

討論深網的時候一個不得不說的概念就是「表網(Clear Web)」。它與深網徹底至關,可以被傳統的搜索引擎索引,能夠經過無需任何特殊配置的標準Web瀏覽器瀏覽Internet。這種稱之爲「可搜索互聯網(searchable Internet)」即是表網。瀏覽器

暗網 VS 深網sass

不少人誤解暗網(Dark Web)與深網(Deep Web)兩個概念,甚至一些研究人員把它們當成等價關係。可是!!暗網不是深網!!它僅僅只是深網的一部分。暗網依賴於地下網絡。在暗網,二者之間的通信網絡是受信的。Tor的「無形的互聯網」項目(Invisible Internet Project(I2P))即是一個暗網系統的例子。

0x01 深網分析器


深網分析器(DeWA)是爲了追查惡意軟件的做者,探索新的惡意威脅,提取深網中有意義的數據,搜查新的惡意軟件活動等目標而設計的。

深網分析器包含五個部分:

  1. 數據收集模塊,負責從多個來源中搜索和保存新的URL。
  2. 通用網關,解決那些私人DNS地址,並容許用戶像使用Tor和I2P這些軟件同樣去訪問隱藏的資源。
  3. 頁面偵查模塊,負責爬取新網址。
  4. 數據富集分析模塊,整合從其它源的偵查信息。
  5. 存儲索引模塊,讓數據方便進一步分析。
  6. 可視化分析工具。

System Overview

System Overview

數據分析模塊

深網分析器的第一個模塊是數據收集模塊,數據收集模塊經過下面的主站爬取新的URL:

  • TOR和I2P隱藏的服務主機
  • Freenet資源定位器
  • .bit域名
  • 非標準TLD(頂級域名)的其它域名,從已知的代理域名註冊商獲取頂級域名列表

咱們的監測系統的數據基於:

  • 用戶數據,檢查HTTP連接到隱藏的服務或非標準域名
  • 相似Pastebin的網站,檢查文本中包含深網網址的片斷
  • 公衆論壇(reddit等一類網站),查找包含深網網址的帖子
  • 包含深網域名的網站,好比deepweblinks.com,darkspider.com等
  • TOR網關的統計信息,好比tor2web.org這類網站支持用戶無需安裝TOR即可以訪問隱藏的服務並統計天天的域名訪問信息
  • I2P解析文件,做爲一種加快I2P主機名解析方法,它能夠從一些隱蔽的網站下載一些預先準備好的主機列表。咱們能夠在這個列表找到一些有趣的新域名
  • Twiter,從Twiter查找包含深網域名的URL

數據收集模塊在發現新域名後生成數據索引,同時還對各個URL組件進行流量分析。這些分析操做可以使咱們發現新的惡意軟件活動。

通用深網網關

前面咱們已經提到過,深網的資源很難爬取。須要經過TOR和I2P這類專用軟件代替DNS和TLD做爲網絡地址解析工具。爲了方便快速訪問深網的資源,咱們部署了一個Charon(一個可使用URL發送HTTP請求到目標服務器的透明代理服務器)。

根據URL的種類,Charon鏈接到:

  • TOR負載均衡器
  • I2P
  • Freenet節點
  • 可以解析私人TLD的私人DNS服務器

頁面偵察

對於每一個收集到的URL都要執行「偵察」操做。即嘗試鏈接到URL並保存響應的數據。當發生錯誤的時候,偵察器保存全部錯誤信息供使用者查看錯誤是由域名解析,服務器端錯誤或傳輸失敗等緣由形成的。HTTP請求失敗以後,偵察器會保存整個HTTP頭部,這個頭部能夠用來偵察惡意軟件對應的主機。固然,這種狀況只是針對特定的HTTP請求。

當成功的時候,偵察器使用無界面瀏覽器(Headless Browser)從下載下來的頁面提取相關的信息:

  • 記錄全部HTTP頭,並追蹤全部重定向連接。
  • 執行網頁DOM渲染(爲了獲取動態javascript頁面)
  • 獲取網頁的快照
  • 計算網頁的大小和MD5
  • 提取網頁的元數據:標題,標籤,資源,關鍵字等等
  • 提取網頁的文本內容
  • 提取網頁全部連接
  • 收集網頁中全部email地址
  • 提取URL並反饋給數據收集模塊,而後做爲附加數據源的索引。

數據富集

數據富集(Data Enrichment)由偵察的數據組成,針對每一個偵察成功的頁面執行如下操做:

  • 檢測頁面的語言
  • 使用Google翻譯全部非英文網頁
  • 經過Web信譽系統針對連接進行評級分類
  • 使用語義聚類算法分析生成WordCloud

聚類算法生成的WordCloud就已經包含了重要的信息。該算法的工做流程以下:

  1. 記錄頁面上的特殊單詞和每一個單詞詞頻
  2. 篩選單詞,只保留名詞,其它如動詞,形容詞都去掉。名詞只保留單數形式
  3. 計算語義距離矩陣:這個矩陣記錄詞與詞彼此之間的分類距離。這個矩陣稱之爲WordNet矩陣。WordNet矩陣測量每一個單詞的分類距離。例如,「棒球」和「籃球」的距離就很是接近,由於二者都屬於「體育」。一樣,「貓」和「狗」的距離也很相近,由於它們都是屬於「動物」。而另外一方面,「狗」和「棒球」的距離就很遠了
  4. 詞集的單詞距離由內向外增長。一旦咱們擁有每一個詞對的距離,即可以創造一組具備意義類似的單詞組
  5. 詞集使用的第一個詞的字母順序爲標籤標註,並計算詞集中每一個單詞的詞頻
  6. 使用詞集裏面分數前20名的標籤,繪製生成WordCloud

數據富集模塊讓分析人員能夠快速從一個網頁當中得到主旨。

存儲和索引

訂閱的URL和偵察的信息都根據不一樣標準的索引方式保存到Elasticsearch集羣。偵察信息做爲每一個網頁文檔的索引,並由Elasticsearch提供搜索功能。這種關聯關鍵字的方式經過文本查詢就能夠搜索成千上萬的網頁。每一個URL組件的URL信息也做爲統計信息保存起來,它能夠用於肯定一個系統的主機名以及查看這個URL的流行程度。其它用途還有:給定一個主機名和參數就能夠查看它第一次訪問狀況,或者找出哪些URL訪問次數最頻繁等等。

UI和可視化

爲了訪問和操做數據,咱們須要藉助三個不一樣的前端系統:

  • 爲了進行定性分析,咱們開發了一個深網門戶網站。這個工具能夠方便調查人員經過不一樣的方式搜索深網的內容。咱們提供不一樣的可視化效果:一個網站分類,它容許用戶經過主機名,路徑,字符串等方式瀏覽全部深網的URL。一個URL概要視圖,用於顯示全部收集的URL。一個偵察概要視圖,提供一個單獨的偵察網頁用於搜索網頁內容。
  • 爲了進行定量分析,咱們依靠Kibana提供的先進數據統計功能和實時數據計算功能。它提供了一個數據挖掘標籤和可視化標籤。可視化視圖標籤根據不一樣的數據指標和聚合進行繪製圖表。
  • 對於更高級的數據檢驗,咱們使用了IPython Notebook。它含有豐富程序庫,方便嵌入到Elasticsearch集羣當中檢驗本地數據和編譯詳細的報告信息。

0x02 深網的情況


在本節當中,咱們將展現一些用咱們的系統收集到的深網應用場景。

首先先來看下在過去兩年間收集到的全部現有深網網頁的語言分佈狀況。

有兩種方法能夠進行語言檢測:一是使用Python的第三方guess_language模塊,它基於Trigram算法實現,並支持離線使用。二是使用Google翻譯。在使用的時候須要比較二者的探測質量避免形成數據誤差。例如,Google翻譯有「未知語言(當網頁沒有數據的時候)」的概念。並且默認狀況下是使用英語。所以一個不慎就容易形成巨大的數據誤差。

下圖顯示網頁語言的分佈狀況,在統計的時候咱們已通過濾掉小於1KB的數據量的語言(由於數據量過小說不上話)。

能夠看到深網網頁主要以英文爲主,在全部域名當中佔到75%。第二是俄國,而後是法國(可能包括法國和加拿大)。

接下來咱們看一下過去兩年間收集到的全部域名的URL調用方法(HTTP,HTTPS,FTP...)。HTTP(s)協議佔到了22.000。若是過濾掉這些數據,能夠看到以下圖所示的有趣數據:

超過100個站點使用了IRC(S)協議。這些都是正常的聊天服務器。固然,它們也能夠做爲進行違法交流場或做爲僵屍網絡(Botnet)的通訊渠道使用。同種類型的還有運行在TOR的聊天服務器的7 XMPP(相似Jabber所使用的)域名。

一些深網犯罪活動的例子

深網裏面提供很是好的翻譯環境供人們交易商品或服務,並提供保證人們在交易時的匿名性。雖然缺少身份證的交易雖然存在很大的風險,但同時也提供了相對的安全性。這種方式使得深網網民能夠自由地販賣交易非法商品或服務。此外,不一樣於地下網絡犯罪,深網大多數活動都對「真實世界」起着重大的影響做用。

在這裏咱們沒法擔保這些商品或服務的真實性,只針對性討論那些真實存在的網站廣告。並且咱們沒法覆蓋全部產品和服務,在這裏主要介紹幾個重要的交易類型。

販賣護照和國籍

即便是假的護照或身份證也是很是好用的證件。這些證件不僅僅能夠用於出國(包括買家不容易出現交叉),也能夠用於開設銀行帳戶,申請貸款,購買房地產等等。因此毫無疑問,護照和身份證都是一種頗有價值的商品。有幾個深網網站都聲稱它們出售正式的護照和身份證,價格在不一樣國家和不一樣賣家之間也各不相等。

這類服務很難保證說沒人購買。特別是那些在異國他鄉但護照身份證被騙/盜/丟失的人爲了繼續留在該國家可能就會購買這些非法證件。

USA Citizenship for sale for under 6000 USD http://xfnwyig7olypdq5r.onion/

Pricing information and samples for fake passports and other documents http://fakeidigyiumbgpu.onion

參考:

  1. USA Citizenship
  2. UK Passports
  3. Fake Passports, many countries

盜賣賬號

盜賣賬號毫不僅限於深網,表網地底下這種類型的交易也很常見。在過去咱們寫了大量關於俄羅斯和中國這方面的報告。其中,信用卡、銀行帳戶,在線拍賣網站和遊戲多是最多見的盜賣賬號類型。

表網上不一樣的網站之間價格也相差甚大。但成熟的商品每每都會有一我的們廣泛接受的訂價標準。一般會有兩種售賣方式:高質量通過已驗證的賬號,但須要提供明確的賬號餘額。大量未經驗證的賬號,但須要保證至少一部分有效。第一種銷售方式成本雖然高了一些,但可能帶來更多的高質量的買家。而批發賬號售價會相對便宜一些。

Unverified accounts sold in bulk – 80% valid or replacement offered http://3dbr5t4pygahedms.onion/

能夠發現深網出售的商品都能在表網找到對應的商品。因此說表網不是沒有這種類型論壇,只是深網上看起來逼格更高一些。

Replica credit cards created with stolen details http://ccccrckysxxm6avu.onion/

參考:

  1. www.trendmicro.com/cloud-conte…
  2. www.trendmicro.com/cloud-conte…
  3. www.trendmicro.com/cloud-conte…
  4. Stolen Paypal accounts
  5. Unverified stolen accounts
  6. Replica stolen credit cards

暗殺服務

這也是深網裏面最黑暗的服務之一,這類服務提供暗殺服務和殺手出租服務,若是放在表網上那絕對是愚蠢至極。深網存在幾個這樣的服務提供商,並且在他們網站也公開說明他們是如何保證業務的機密性。一個網站明確說明:它們不提供殺手們過去的工做證實,以及以往的客戶反饋狀況和暗殺成功的證實。相反,他們使用比特幣做爲信譽象徵。最後,只有當殺手展開暗殺並提供證實,才能得到佣金。

C’thulu Resume – Assassination Services for Hire http://cthulhuuap7ch47k.onion

從上圖能夠看到,服務的價格隨着目標的死亡方式,受傷方式和地位的不一樣而不一樣。最近,Ross Ulbricht就因利用絲綢之路進行販毒被判刑而企圖僱傭五個殺手幹掉他的合夥人。

還有另一種不一樣的服務,稱之爲「衆包暗殺」。在DeadPool這個網站裏面,用戶提出潛在的暗殺目標,而後其餘人向「死亡之池」扔比特幣。暗殺者預測目標大概何時以什麼方式死亡。若是這我的確實死了,並且符合預測的結果,那麼暗殺者就能夠得到這筆錢。至今爲止已經提出了四個名字,然而尚未錢進入池中。咱們能夠猜想這是一個釣魚網站。

Deadpool – Crowd Sourced Assassination http://deadpool4x4a25ys.onion

參考:

  1. www.wired.com/2015/02/rea…
  2. Contract Killers (C’thulu Resume)
  3. Crowdsourced assassination

比特幣和洗錢

比特幣(Bitcoin)自己是爲了匿名流通而設計的貨幣。所以它常用在購買非法商品或服務上面(固然也能夠購買合法的東西)。雖然只要不把比特幣跟你的真實身份打上掛鉤就能夠保證在交易的匿名性。可是,每筆比特幣的交易都是徹底公開的。因此,儘管比較困難,調查人員追查資金的流通狀況仍是可行的。

有一些服務能夠提升你的貨幣在系統中的匿名性,使得這些貨幣流通狀況更難以追查。這些服務一般把你的貨幣在網絡蜘蛛上進行微交易後再返回到你手上。在這個過程你會丟失少量貨幣(一般減去少許的手續費),但可使得你的交易過程變得更加難以追查。

EasyCoin – Bitcoin laundery service http://easycoinsayj7p5l.onion

比特幣洗錢服務能夠提升資金在比特幣系統流通的匿名性。但人們最但願的仍是從系統從把比特幣經過其它方式轉換爲現金。深網有轉換現金的匿名服務:它們基本都是經過Paypal,ACH,西聯匯款或者直接發送郵件給你現金。

WeBuyBitcoins – Exchanging Bitcoin for cash or electronic payments http://jzn5w5pac26sqef4.onion

像WeBuyBitcoins這類網站在表網提供非匿名但相對較高的匯率的交易。對於犯罪分子來講可能原意承擔更大的風險得到更多的現金。另外還有一種選擇是:使用比特幣購買假幣。

Buying counterfeit 20 USD for approximately half the price of face value http://usjudr3c6ez6tesi.onion

參考:

  1. Bitcoin used to by a Tesla Model S
  2. EasyCoin – Bitcoin Wallet with free Bitcoin Mixer / Laundery
  3. OnionWallet – Bitcoin Wallet with free Bitcoin Mixer / Laundery
  4. WeBuyBitcoins – Sell Bitcoins for Cash (USD), ACH, WU/MG, LR, PayPal and others
  5. Counterfeit $20 USD / Euro Bills
  6. Counterfeit $50 Euro Bills
  7. Counterfeit $50 USD Bills

泄漏政府,執法部門,法人的信息

黑客文化是一種一羣志同道合的人組成的鬆散式或封密式的組織。因爲這種性質,組織之間很容易發生競爭衝突。發生衝突時「Dox」對方是一種常見的作法,Dox是指經過計算機檢索,黑客等行爲把對方的我的信息發佈到網絡上。獲取對方我的信息方法有不少,但一般會結合公共數據,社會工程學和黑客攻擊幾種方法收集對方的我的信息。

Cloudnine Doxing site – note it requests SSN, medical & financial info and more http://cloudninetve7kme.onion

可是Dox現象不只限於黑客之間,針對敵手公司,名人,公衆人物的Dox也是很常見的。暴露的信息也不只限於黑客獲取到的信息,也多是內部人員透露的。通常狀況下都把信息提交到維基解密(Wikileak)上。深網也有這種類型的網站,容許提交這些信息。

很難保證這些信息的真實性。但經過泄漏的信息包括:生日,SSN,我的email地址,手機號碼,居住地址等等。Cloud Nine這個網站列出了一些可能「Dox」信息:

  • 幾個FBI特工
  • Bill,Hillary Clinton,Barack,Michelle Obama,Sarah Palin,美國參議員還有其它一些政府人員。
  • Angelina Jolie,Bill Gates,Tom Cruise,Lady Gaga,Beyonce,Dennis Rodman等名人。

Apparent personal email account of Barack Obama (unverified) http://cloudninetve7kme.onion

Apparent leaks of LEA (unverified) http://cloudninetve7kme.onion

A leak for Kim Kardashian among other hacker related dox http://cloudninetve7kme.onion

參考:

  1. Doxing archive
  2. Wikileaks clone
  3. Wikileaks submission portal
  4. Possible Judge Forrest leak

病毒

正如前面提到過的,深網最多見的就是販賣毒品和武器。但在這篇文章中咱們不打算深刻探討這些細節,由於已經有不少文章報告了深網販賣病毒的事情。但咱們想強調的是,即便是運維「絲綢之路」販賣毒品的Ross Ulbricht最近也被判無期徒刑。販賣毒品對於本文分析深網的份量來講並非很重要。

深網裏面販賣的毒品類型衆多,有菸草,大麻,迷藥,可卡因等等。

The Peoples Drug Store – selling Heroin, Cocaine, Ectasy and more http://newpdsuslmzqazvr.onion

Grams – the Deepwebs search engine for drug http://grams7enufi7jmdl.onion

除了專門的商店和討論外,還有一個很是受歡迎的網站「Grams」。網站風格有些相似Google,並且提供簡單的搜索引擎容許搜索毒品。它在深網裏面已經成爲那些想購買毒品的人的旗幟性網站。

咱們甚至發現TOR裏面有些網站還提供大麻的培植環境:現場的溫度,水分,還有植物的生命週期。

Growhouse – showing temperature and live streaming of Cannabis plant http://growboxoo2uacpkh.onion

Drugs dealer in the Deep Web

咱們只因此要在這一節介紹深網裏面的毒品報告是由於想強調:就像絲綢之路同樣,它會記錄下你的犯罪行爲。深網根本上並非一個好的解決方案。一方面買家但願向你購買毒品,另外一方面還須要有賣家提供貨源。市場和論壇只是做爲一個交易轉接點,你要是不想使用它,那麼只要商品的雙方需求量夠大,馬上會有其它市場伴隨需求而誕生。

參考:

  1. www.forbes.com/sites/katev…
  2. Contraband Tobacco
  3. Cannabis
  4. Psychedelics
  5. Heroin, Cocaine and others
  6. Grams – Deep Web drug search engine
  7. Live feed from a Cannabis Growhouse
  8. Expert Insight video Series – The Deep Web

惡意軟件

深網和惡意軟件之間在許多方面上可以完美結合在一塊兒。特別是當使用深網做爲C&C控制服務器基礎設施使用的時候可以利用TOR和I2P強大的加密功能隱藏位置信息保證網站和服務的匿名性。這使得調查人員很難使用傳統的方式檢查服務器IP地址和登陸詳情等等。此外,這些網站和服務使用起來很簡單。因此沒必要驚訝爲何那麼多網絡犯罪分子使用TOR做爲C&C。一般惡意軟件捆綁了TOR的客戶端。這種趨勢最先在2013年開始,當時MEVADE惡意軟件還形成了TOR流量劇增,2014年以後流行的是類ZBOT惡意軟件家族。

舉個例子,VAWTRAK惡意軟件是一種經過釣魚郵件進行擴散的銀行木馬。每一個樣本都使用C&C服務器提供的IP地址列表進行通信,IP地址列表向TOR主機網站下載(一般是一個icon文件,通常命名爲favicon.ico)。這種方式的好處是保證犯罪服務器的匿名性。但這不是全部人都能訪問,只有那些受到病毒感染的系統才能訪問C&C服務器。

Vawtrak C&C showing the legitimate looking Favicon http://4bpthx5z4e7n6gnb.onion/favicon.ico

web服務器經過favicon.ico文件配置C&C控制服務器(大多數運行在openresty/1.7.2.1)。咱們能夠經過搜索這些網站的完整列表下載天天最新的C&C。

Example of fetched HTTP headers from C&Cs

Identified TOR-based C&Cs (1)

Identified TOR-based C&Cs (2)

另外一個使用深網的惡意軟件是CryptoLocker。CryptoLockeree是一款ransomware勒索軟件的變種,它經過加密受害者的我的文檔和資料,並在受害者再次訪問的時候重定向到它的網站以達到勒索目的。CryptoLocker能夠自動調整付款頁面的語言和支付手段。TorrentLocker是CryptoLocker的變種,它使用TOR做爲主機,並使用比特幣做爲支付方式。這就說明了爲何犯罪分子爲何要使用深網做爲基礎設施,由於它確實更加安全。下面的截圖是深網分析器捕獲到的兩種語言的付款頁。

Cryptolocker C&C automatically formatted for a victim in Taiwan and Italy http://ndvgtf27xkhdvezr.onion

Breakdown by Victims and Countries

下面是一個有關惡意軟件盜取機密信息的例子。在咱們的搜索方法當中,咱們使用一個最近和最短的時間窗口做爲查詢字符串,這樣咱們能夠快點發現深網裏面新的威脅。

在這個例子中,xu和xd兩個參數在過去一週人氣劇增。xu關聯超過1700個的字典值並組成二進制對象文件。進一步觀察發現,xu使用NionSpy竊取受權憑證(一般是網上銀行等),而後收集鍵盤記錄併發送到深網中。與此同時,xd用於註冊感染新的僵屍網絡。註冊信息包含受害者機器名和操做系統版本號,通訊的參數相似下面的JSON字符串:

[REDACTED]2xx.onion:80/si.php?xd={「f155」:」MACHINE IP」,」f4336」:」MACHINE NAME」,」f7035」:」5.9.1.1」,」f1121」:」windows」,」f6463」:」」,」f2015」:」1」}
複製代碼

經過泄漏出來的數據收集分析註冊相關的信息,構建顯示天天新增的受害者圖表。

Automated Analysis on Prevalent Query-String Parameters

Number of new Infections (and Leaked data, in bytes) per day.

最後值得一提的是:一款名爲Dyre的木馬將I2P做爲C&C服務器的備份選項。正常狀況下則使用表網的DGA。這個木馬做爲一個BHO的MiTMs運行在瀏覽器的網上銀行上。攻擊者能夠經過後門訪問受到感染的受害者銀行門戶。DeWA介紹這個惡意軟件的時候說到:在過去的6個月間,受到I2P感染的受害者的數量明顯增長。

Traffic to Dyre’s I2P infrastructure.

參考:

  1. blog.trendmicro.com/trendlabs-s…
  2. blog.trendmicro.com/trendlabs-s…
  3. blog.trendmicro.com/trendlabs-s…
  4. blog.trendmicro.com/trendlabs-s…
  5. Vawtrak / Neverquest C&C
  6. Cryptolocker C&C
相關文章
相關標籤/搜索