【重磅開源】Hawk-數據抓取工具：簡明教程

時間 2019-11-06

標籤重磅開源 hawk 數據抓取工具簡明教程简体版

原文原文鏈接

Hawk: Advanced Crawler& ETL tool written in C#/WPF

1.軟件介紹

Hawk3已經發布，本文的不少信息已經不完整或過時，全部更新信息和下載地址均可參考下面的連接：html

https://github.com/ferventdesert/Hawk前端

HAWK是一種數據採集和清洗工具，依據GPL協議開源，可以靈活，有效地採集來自網頁，數據庫，文件，並經過可視化地拖拽，
快速地進行生成，過濾，轉換等操做。其功能最適合的領域，是爬蟲和數據清洗。python

Hawk的含義爲「鷹」，可以高效，準確地捕殺獵物。git

HAWK使用C# 編寫，其前端界面使用WPF開發，支持插件擴展。經過圖形化操做，可以快速創建解決方案。程序員

GitHub地址：https://github.com/ferventdesert/Hawkgithub

其Python等價的實現是etlpy:正則表達式

http://www.cnblogs.com/buptzym/p/5320552.html算法

筆者專門爲其開發的工程文件已公開在GitHub:數據庫

https://github.com/ferventdesert/Hawk-Projects後端

使用時，點擊文件，加載工程便可加載。

編譯路徑在:
Hawk.Core\Hawk.Core.sln

以獲取大衆點評的全部北京美食爲例，使用本軟件可在10分鐘內完成配置，在1小時以內自動並行抓取所有內容，並能監視子線程工做狀況。而手工編寫代碼，即便是使用python，一個熟練的程序員也可能須要一天以上：

視頻演示，複雜度由小到大:

鏈家二手房

微信公共平臺

大衆點評-北京美食

2.界面和組件介紹

2.1 界面介紹

軟件採用相似Visual Studio和Eclipse的Dock風格，全部的組件均可以懸停和切換。包括如下核心組件：

左上角區域：主要工做區，可模塊管理。
下方：輸出調試信息，和任務管理，監控一項任務完成的百分比。
右上方區域：屬性管理器，能對不一樣的模塊設置屬性。
右下方區域：顯示當前已經加載的全部數據表和模塊。

2.2 數據管理

可以添加來自不一樣數據源的鏈接器，並對數據進行加載和管理：

在空白處，點擊右鍵，可增長新的鏈接器。在鏈接器的數據表上，雙擊可查看樣例，點擊右鍵，能夠將數據加載到內存中。也能夠選擇加載虛擬數據集，此時系統會維護一個虛擬集合，當上層請求分頁數據時，動態地訪問數據庫，從而有效提高性能。

2.3 模塊管理

目前系統僅僅提供了兩個模塊：網頁採集器和數據清洗ETL，雙擊便可加載一個新的模塊。

以前配置好的模塊，能夠保存爲任務，雙擊可加載一個已有任務：

2.4 系統狀態管理

當加載了數據集或模塊時，在系統狀態管理中，就可對其查看和編輯：
點擊右鍵，能夠對數據集進行刪除，修更名稱等。也能夠將數據集拖拽到下方的圖標上，如拖到回收站，便可刪除該模塊。
雙擊數據集或模塊，可查看模塊的內容。將數據集拖拽到數據清洗（數據視圖的下方第一個圖標），可直接對本數據集作數據清洗。

3.網頁採集器

3.1 原理（建議閱讀）

網頁採集器的功能是獲取網頁中的數據（廢話）。一般來講，目標多是列表（如購物車列表），或是一個頁面中的固定字段（如JD某商品的價格和介紹，在頁面中只有一個）。所以須要設置其讀取模式。傳統的採集器須要編寫正則表達式，但方法過度複雜。若是認識到html是一棵樹，只要找到了承載數據的節點便可。XPath就是一種在樹中描述路徑的語法。指定XPath，就能搜索到樹中的節點。

手工編寫XPath也很複雜，所以軟件能夠經過關鍵字，自動檢索XPath，提供關鍵字，軟件就會從樹中遞歸搜索包含該數據的葉子節點。所以關鍵字最好是在頁面中獨一無二的。

如上圖所示，只要提供「北京」和「42」這兩個關鍵字，就能找到parent節點，進而獲取div[0]和div1這兩個列表元素。經過div[0]和div1兩個節點的比較，咱們就能自動發現相同的子節點（name,mount）和不一樣的節點（北京:上海,37:42）。相同的節點會保存爲屬性名，不一樣的節點爲屬性值。可是，不能提供北京和37，此時，公共節點是div[0]，這不是列表。

軟件在不提供關鍵字的狀況下，也能經過html文檔的特徵，去計算最多是列表父節點（如圖中的parent）的節點，但當網頁特別複雜時，猜想可能會出錯，因此須要至少提供兩個關鍵字（屬性）。

本算法原理是原創的，可查看源碼或留言交流。

3.2 基本列表

咱們以爬取鏈家二手房爲例，介紹網頁採集器的使用。首先雙擊圖標，加載採集器：

在最上方的地址欄中，輸入要採集的目標網址，本次是http://bj.lianjia.com/ershoufang/。並點擊刷新網頁。此時，下方展現的是獲取的html文本。原始網站頁面以下：

因爲軟件不知道到底要獲取哪些內容，所以須要手工給定幾個關鍵字，讓Hawk搜索關鍵字，並獲取位置。

以上述頁面爲例，經過檢索820萬和51789（單價,每次採集時都會有所不一樣），咱們就能經過DOM樹的路徑，找出整個房源列表的根節點。

下面是實際步驟

因爲要抓取列表，因此讀取模式選擇List。填入搜索字符700，發現可以成功獲取XPath, 編寫屬性爲「總價」，點擊添加字段，便可添加一個屬性。相似地，再填入30535，設置屬性名稱爲「單價」，便可添加另一個屬性。

若是發現有錯誤，可點擊編輯集合，對屬性進行刪除，修改和排序。

你能夠相似的將全部要抓取的特徵字段添加進去，或是直接點擊手氣不錯，系統會根據目前的屬性，推測其餘屬性:

屬性的名稱是自動推斷的，若是不滿意，能夠修改列表第一列的屬性名，在對應的列中敲鍵盤回車提交修改。以後系統就會自動將這些屬性添加到屬性列表中。

工做過程當中，可點擊提取測試 ，隨時查看採集器目前的可以抓取的數據內容。這樣，一個鏈家二手房的網頁採集器便可完成。可屬性管理器的上方，能夠修改採集器的模塊名稱，這樣就方便數據清洗 模塊調用該採集器。

4. 數據清洗

數據清洗模塊，包括幾十個子模塊，這些子模塊包含四類：生成，轉換，過濾和執行

4.0 原理（可跳過）

4.0.1 C#版本的解釋

數據清洗的本質是動態組裝Linq,其數據鏈爲IEnumerable<IFreeDocument>。 IFreeDocument是 IDictionary<string, object>
接口的擴展。 Linq的Select函數可以對流進行變換，在本例中，就是對字典不一樣列的操做（增刪改），不一樣的模塊定義了一個完整的Linq
流：

result= source.Take(mount).where(d=>module0.func(d)).select(d=>Module1.func(d)).select(d=>Module2.func(d))….

藉助於C#編譯器的恩賜， Linq能很方便地支持流式數據，即便是巨型集合（上億個元素），也可以有效地處理。

4.0.2 Python版本的解釋

因爲Python沒有Linq, 所以組裝的是生成器(generator)，對生成器進行操做，便可定義出相似Linq的完整鏈條：

for tool in tools:
    generator = transform(tool, generator)

詳細源代碼，能夠參考Github上的開源項目https://github.com/ferventdesert/etlpy/

4.1 以鏈家爲例的抓取

4.1.1構造url列表

在3.1節介紹瞭如何實現一個頁面的採集，但如何採集全部二手房數據呢？這涉及到翻頁。

仍是以鏈家爲例，翻頁時，咱們會看到頁面是這樣變換的：

http://bj.lianjia.com/ershoufang/pg2/
http://bj.lianjia.com/ershoufang/pg3/
…

所以，須要構造一串上面的url. 聰明的你確定會想到，應當先生成一組序列，從1到100（假設咱們只抓取前100頁）。

雙擊數據清洗ETL左側的搜索欄中搜索生成區間數，將該模塊拖到右側上方的欄目中：

在右側欄目中雙擊生成區間數，可彈出設置窗口，爲該列起名字(id), 最大值填寫爲100,生成模式默認爲Append:
爲何只顯示了前20個？這是程序的虛擬化機制，並無加載所有的數據，可在ETL屬性的調試欄目中，修改採樣量（默認爲20）。
將數字轉換爲url, 熟悉C#的讀者，能夠想到string.format, 或者python的%符號：搜索合併多列，並將其拖拽到剛纔生成的id列，編寫format爲下圖的格式，便可將原先的數值列變換爲一組url

(若是須要多個列合併爲一個列，則在「其餘項」欄目中填寫其餘列的列名，用空格分割，並在format中用{1},{2}..等表示)
(因爲設計的問題，數據查看器的寬度不超過150像素，所以對長文本顯示不全，能夠在右側屬性對話框點擊查看樣例，彈出的編輯器可支持拷貝數據和修改列寬。