WebFetch 是無依賴極簡網頁爬取組件

WebFetch 是無依賴極簡網頁爬取組件,能在移動設備上運行的微型爬蟲。git

WebFetch 要達到的目標:github

  • 沒有第三方依賴jar包web

  • 減小內存使用api

  • 提升CPU利用率網絡

  • 加快網絡爬取速度spa

  • 簡潔明瞭的api接口.net

  • 能在Android設備上穩定運行3d

  • 小巧靈活能夠方便集成的網頁抓取組件接口

使用文檔

WebFetch的使用很是簡單,讓小白用戶快速上手,WebFetch爲用戶配置默認頁面處理方法,默認將抓取到的頁面信息使用System.out.print輸出到控制檯(經過配置PageHandler修改默認操做)。ip

啓動代碼:

WebFetch webFetch = new WebFetch(); 
webFetch.addBeginTask("https://github.com").start();

中止代碼:

webFetch.close();

WebFetch再執行start()方法後不會阻塞程序執行,能夠加入多個網頁地址,目前支持http與https,至少須要一個起始地址。

第一個版本還須要不斷改進與完善,但願你們提出寶貴的改進意見,感謝你們的支持。

聯繫方式:wanghailiang333@qq.com

 

 

無依賴極簡網頁爬取組件,能在移動設備上運行的微型爬蟲。
相關文章
相關標籤/搜索