webmagic 0.4.0的特性

0.4.0已發佈,新聞:http://www.oschina.net/news/45720/webmagic-0-4-0java

webmagic 0.4.0將於本週內發佈,新增特性:git

大幅優化下載效率

  • 升級HttpClient到4.3.1,重寫了HttpClientDownloader的代碼 #32
  • 在http請求中主動開啓gzip,下降傳輸開銷 #31
  • 修復0.3.2及以前版本鏈接池不生效的問題 #30,使用新的鏈接池機制,實現鏈接複用功能。

經測試,下載速度可達到90%左右的提高。github

新增同步下載模式,對於簡單任務更方便

<!-- lang: java -->
    OOSpider ooSpider = OOSpider.create(Site.me().setSleepTime(100), BaiduBaike.class);
    BaiduBaike baike = ooSpider.<BaiduBaike>get("http://baike.baidu.com/search/word?word=httpclient&pic=1&sug=1&enc=utf8");
    System.out.println(baike);

Spider部分:

  • 重構了多線程的代碼,修復幾個線程安全問題。
  • 能夠主動設置當全部任務完成時,Spider是否終止。
  • 能夠設置初始的Request,而不單單是Url #29
  • 增長http代理支持 #22
  • 支持自定義全部http頭#27

同時webmagic的郵件組開通了,歡迎加入:web

https://groups.google.com/forum/#!forum/webmagic-java安全

相關文章
相關標籤/搜索