Hawk是一款由沙漠之鷹歷時五年我的業餘時間開發的,開源圖形化爬蟲和數據清洗工具,GitHub Star超過2k+,前幾代版本介紹以下:git
Hawk3: 終於等到你: 圖形化開源爬蟲Hawk 3發佈!github
Hawk2: 120項優化: 超級爬蟲Hawk 2.0重磅發佈!web
Hawk1: 如何從互聯網採集海量數據?租房,二手房,薪酬...數組
一鍵抓取二手房的教程以下: https://www.jianshu.com/p/859c314f58c5瀏覽器
Hawk從2015年開源,但Hawk5則帶來了其歷史上最大的更新,解決諸多bug,提供開放的任務市場,手機app嗅探和更強大的調試系統。 所以咱們直接跳過Hawk4,發佈Hawk5。服務器
那麼Hawk5帶來哪些讓人興奮的更新呢? 大招在最後!app
Hawk5對界面作了進一步的完善和微調,使用更人性化:工具
Hawk早期版本不穩定,用戶正在編輯任務或處理數據時,Hawk撲街了!學習
Hawk5能自動保存任務,數據表,甚至當前執行的位置!一旦關閉或崩潰,不要怕!數據一條沒丟,重啓後,還能從上次中斷繼續運行!就像斷點續傳同樣,顫抖吧筒子們!
這是另外一革命性功能,因爲訪問網站常常會超時或不可訪問,想一次性抓取且不重不漏是很是困難的。
Hawk5支持批量補數據。當發生異常時,Hawk會將異常和上下文寫入數據表,以後便可智能從新執行,將數據不重不漏地回補回來,以下圖所示:
Hawk5中,幫助文檔得到了極大的加強,除了豐富和細緻的在線文檔以外:
還在各個模塊下方提供圖文並茂的說明,當你不知道該按鈕的做用時,鼠標放在該按鈕上保持3秒就有貼心提示出現!
更貼心的是,設計完任務後,一鍵便可生成手把手幫助文檔。新手循序漸進便可重重現該功能!
Hawk5進一步地提供了多國語言,能方便地在中文,English或其餘任何語言切換,只要在執行目錄增長對應的語言文件便可!
同時,Hawk的自動更新機制,可以讓迭代更加敏捷,有新版本的Hawk便可一鍵更新,媽媽不再用擔憂Hawk出現bug了!
早期的Hawk,多任務間協同比較複雜,子任務也不能完全解決該問題。
Hawk5中提供了全局參數系統,能夠在任何模塊中,使用大括號引用你已經配置的參數,並能在多個參數組間切換。
這有什麼用呢?舉個栗子,當二手房抓取時,每一個城市們頁面格式和地址都不相同, 須要手工切換多個參數。使用全局參數後,切換配置組便可一鍵在不一樣城市間切換!
早期Hawk在配置錯誤時,一條數據都出不來,卡住的不只是Hawk,還有用戶的心。
Hawk5提供了更加方便的調試系統,每一個模塊是否正常工做,會以綠色方格提醒,一目瞭然。當任務的某個模塊出現異常時會及時提示。
超級拷貝,能夠經過shift鍵,選擇多個模塊,在多個任務間拷貝。你甚至還能將Hawk自動嗅探出的網頁XPath結構一鍵拷貝爲python代碼,極大地簡化爬蟲工程師的工做!
是否已經被網站封鎖?總共進行了多少次請求?全局統計系統可以方便的顯示當前總的web請求數,異常數,超時數,當錯誤數達到閾值時,更能自動暫停全部的任務!
除此以外,新版的Hawk更是改進了UI設計,例如XPath轉換器,可以經過關鍵字快速定位,幾回點選便可獲取真實XPath。
之前全部的Hawk用戶只能各自爲政,沒法共享和溝通。
在新的Hawk中,你能夠瀏覽任務市場,直接加載遠程任務和瀏覽數據,並方便地組合其餘人的任務。像BT站同樣,做者發佈數據清洗工程後,全部的Hawk用戶就會當即受益!
之前想抓取全國二手房很複雜,且不能應對網站改版。在Hawk市場只要輕輕點擊加載任務便可,所見即所得,一鍵將數據導出到Excel。
這是Hawk本次更新的最重要的功能,它極大地改善了Hawk社會化協做,基於GitHub。因爲帳號系統的限制,目前還不能在軟件中直接上傳任務(將來會提供),若是你但願向主倉庫貢獻任務,可提交git的pull request。
在AI時代,經過大量用戶使用Hawk的行爲和任務市場的積累,咱們可以經過強化學習等技術,自動讓AI學出自動的數據清洗和轉換服務,讓Hawk變得更加智能。
若是你覺得Hawk只是個爬蟲,那就錯了,Hawk是個通用的流式計算客戶端。將來Hawk市場,不只會有共享的任務,更會引入第三方插件機制,極大地擴展Hawk流式計算的版圖。
目前正在開發中的瀏覽器驅動插件,可以讓Hawk自動控制瀏覽器,模擬點擊,翻頁等一系列操做,你要作的只是作一遍後導入到Hawk。經過配置數據清洗流,可以實現自動搶票,鍵盤輸入等一系列功能。
Hawk5的手機遠程嗅探功能,能方便的抓取手機app的數據。
將來的插件可以更方便地調用百度識圖,翻譯轉換以及各種服務存儲API,讓更多用戶可以經過Hawk拖拽就能實現豐富的數據處理,並導出成任何格式。
咱們對Hawk的理念,是開源,去中心化和社會化協做。它沒有公司去運營,沒有中心服務器,只依賴了免費的GitHub倉庫,使用文檔和教程都是機器自動生成的。但它也在各類艱難中一路走來,但咱們對Hawk的願景是讓數據流變得更加智能,讓數據工做者變得更加地敏捷方便。
感謝閱讀,若是Hawk給你提供了幫助,歡迎轉發本文給更多的朋友,並歡迎給本項目的GitHub點個star!