Heritrix個性化設置抓取目標

時間 2019-11-20

標籤 heritrix 個性化設置抓取目標简体版

原文原文鏈接

　　本文是Heritrix的使用的高級篇，針對對Heritrix已經可以運行的碼農朋友們！css

咱們在抓取網頁的時候，網頁的連接中每每會包含有js、css、圖片、視頻等文件，第一次執行抓取任務的時候，許多農民朋友們可能會發現抓取速度使人着急，多是因爲抓取了太多的沒必要要的數據文件，尤爲是視頻文件，少則幾十兆，多則上百兆，這嚴重影響了咱們的抓取的速度，還有一些緩存文件，配置文件等等。html

　　那麼如何才能作到只抓取html網頁呢？（這裏暫且不討論抓取抓取指定域名的html網頁，在以後的文章中可能會列出來！）緩存

一、Modules——>Extractor

因爲咱們只對html文件中的連接感興趣，因此去除了如下三個extractor。ide

ExtractorCSSfetch

ExtractorJSspa

ExtractorSWFregexp

修改前：視頻

修改後：htm

添加org.archive.crawler.deciderules.FilterDecideRule到midfetch-decide-rulesblog

添加org.archive.crawler.filter.ContentTypeRegExpFilter和org.archive.crawler.deciderules.DecidingFilter

而後添加org.archive.crawler.deciderules.FetchStatusDecideRule到DecidingFilter

修改前：

修改後：

修改 regexp: 的值爲「text/html*」【沒有引號】

修改target-status的值爲200

修改後爲：

這樣Heritrix就不會下載除了Content-Type爲text/html而且Status Code爲200以外的其餘文件。

到此，設置就基本結束了！【本方法經實踐檢驗】

===========================參考網址===========================

http://www.360doc.com/content/13/1122/14/13518188_331292907.shtml

===========================參考網址===========================

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。