Heritrix個性化設置抓取目標

  本文是Heritrix的使用的高級篇,針對對Heritrix已經可以運行的碼農朋友們!css

咱們在抓取網頁的時候,網頁的連接中每每會包含有js、css、圖片、視頻等文件,第一次執行抓取任務的時候,許多農民朋友們可能會發現抓取速度使人着急,多是因爲抓取了太多的沒必要要的數據文件,尤爲是視頻文件,少則幾十兆,多則上百兆,這嚴重影響了咱們的抓取的速度,還有一些緩存文件,配置文件等等。html

  那麼如何才能作到只抓取html網頁呢?(這裏暫且不討論抓取抓取指定域名的html網頁,在以後的文章中可能會列出來!)緩存

一、Modules——>Extractor

因爲咱們只對html文件中的連接感興趣,因此去除了如下三個extractor。ide

ExtractorCSSfetch

ExtractorJSspa

ExtractorSWFregexp

修改前:視頻

修改後:htm

二、Submodules——>midfetch-decide-rules

添加org.archive.crawler.deciderules.FilterDecideRulemidfetch-decide-rulesblog

添加org.archive.crawler.filter.ContentTypeRegExpFilterorg.archive.crawler.deciderules.DecidingFilter

而後添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter

修改前:

修改後:

三、Setting——>midfetch-decide-rules

修改 regexp: 的值爲「text/html*」【沒有引號】

修改target-status的值爲200

修改後爲:

這樣Heritrix就不會下載除了Content-Type爲text/html而且Status Code爲200以外的其餘文件。

到此,設置就基本結束了!【本方法經實踐檢驗】

===========================參考網址===========================

http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml

===========================參考網址===========================

相關文章
相關標籤/搜索