本文是Heritrix的使用的高級篇,針對對Heritrix已經可以運行的碼農朋友們!css
咱們在抓取網頁的時候,網頁的連接中每每會包含有js、css、圖片、視頻等文件,第一次執行抓取任務的時候,許多農民朋友們可能會發現抓取速度使人着急,多是因爲抓取了太多的沒必要要的數據文件,尤爲是視頻文件,少則幾十兆,多則上百兆,這嚴重影響了咱們的抓取的速度,還有一些緩存文件,配置文件等等。html
那麼如何才能作到只抓取html網頁呢?(這裏暫且不討論抓取抓取指定域名的html網頁,在以後的文章中可能會列出來!)緩存
因爲咱們只對html文件中的連接感興趣,因此去除了如下三個extractor。ide
ExtractorCSSfetch
ExtractorJSspa
ExtractorSWFregexp
修改前:視頻
修改後:htm
添加org.archive.crawler.deciderules.FilterDecideRule到midfetch-decide-rulesblog
添加org.archive.crawler.filter.ContentTypeRegExpFilter和org.archive.crawler.deciderules.DecidingFilter
而後添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter
修改前:
修改後:
修改 regexp: 的值爲「text/html*」【沒有引號】
修改target-status的值爲200
修改後爲:
這樣Heritrix就不會下載除了Content-Type爲text/html而且Status Code爲200以外的其餘文件。
到此,設置就基本結束了!【本方法經實踐檢驗】
===========================參考網址===========================
http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml
===========================參考網址===========================