開發網絡爬蟲應該如何選擇爬蟲框架？

時間 2019-11-14

標籤開發網絡爬蟲應該如何選擇框架欄目系統網絡简体版

原文原文鏈接

有些人問，開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector仍是其它的？這裏依照個人經驗隨便扯淡一下：javascript

上面說的爬蟲，基本可以分3類：php

1.分佈式爬蟲：Nutchhtml

2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollectorjava

3. 非JAVA單機爬蟲：scrapy
python

第一類:分佈式爬蟲mysql

爬蟲使用分佈式。主要是解決兩個問題：web

1)海量URL管理ajax

2)網速sql

現在比較流行的分佈式爬蟲，是Apache的Nutch。數據庫

但是對於大多數用戶來講，Nutch是這幾類爬蟲裏，最很差的選擇，理由例如如下：

1)Nutch是爲搜索引擎設計的爬蟲，大多數用戶是需要一個作精準數據爬取（精抽取）的爬蟲。Nutch執行的一套流程裏，有三分之二是爲了搜索引擎而設計的。對精抽取沒有太大的意義。

也就是說，用Nutch作數據抽取。會浪費很是多的時間在沒必要要的計算上。而且假設你試圖經過對Nutch進行二次開發，來使得它適用於精抽取的業務。基本上就要破壞Nutch的框架，把Nutch改的面目全非。有改動Nutch的能力，真的不如本身又一次寫一個分佈式爬蟲框架了。

2)Nutch依賴hadoop執行，hadoop自己會消耗很是多的時間。假設集羣機器數量較少。爬取速度反而不如單機爬蟲快。

3)Nutch儘管有一套插件機制，而且做爲亮點宣傳。可以看到一些開源的Nutch插件。提供精抽取的功能。但是開發過Nutch插件的人都知道。Nutch的插件系統有多蹩腳。

利用反射的機制來載入和調用插件。使得程序的編寫和調試都變得異常困難，更別說在上面開發一套複雜的精抽取系統了。而且Nutch並無爲精抽取提供對應的插件掛載點。

Nutch的插件有僅僅有五六個掛載點，而這五六個掛載點都是爲了搜索引擎服務的。並無爲精抽取提供掛載點。

大多數Nutch的精抽取插件，都是掛載在「頁面解析」(parser)這個掛載點的，這個掛載點事實上是爲了解析連接（爲興許爬取提供URL），以及爲搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。

4)用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，每每是單機爬蟲所需的十倍時間不止。瞭解Nutch源代碼的學習成本很是高，況且是要讓一個團隊的人都讀懂Nutch源代碼。調試過程當中會出現除程序自己以外的各類問題(hadoop的問題、hbase的問題)。

5)很是多人說Nutch2有gora。可以持久化數據到avro文件、hbase、mysql等。

很是多人事實上理解錯了。這裏說的持久化數據。是指將URL信息（URL管理所需要的數據）存放到avro、hbase、mysql。並不是你要抽取的結構化數據。事實上對大多數人來講，URL信息存在哪裏無所謂。

6)Nutch2的版本號眼下並不適合開發。

官方現在穩定的Nutch版本號是nutch2.2.1，但是這個版本號綁定了gora-0.3。假設想用hbase配合nutch（大多數人用nutch2就是爲了用hbase)。僅僅能使用0.90版本號左右的hbase，對應的就要將hadoop版本號降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導做用，Nutch2的教程有兩個，各自是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是可以支持到hbase 0.94。

但是實際上。這個Nutch2.x的意思是Nutch2.3以前、Nutch2.2.1以後的一個版本號，這個版本號在官方的SVN中不斷更新。而且很不穩定（一直在改動）。

因此。假設你不是要作搜索引擎。儘可能不要選擇Nutch做爲爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，事實上是衝着Nutch的名氣（Nutch做者是Doug Cutting），固然最後的結果每每是項目延期完畢。

假設你是要作搜索引擎。Nutch1.x是一個很好的選擇。Nutch1.x和solr或者es配合，就可以構成一套很強大的搜索引擎了。假設非要用Nutch2的話。建議等到Nutch2.3公佈再看。眼下的Nutch2是一個很不穩定的版本號。

第二類:JAVA單機爬蟲

這裏把JAVA爬蟲單獨分爲一類，是因爲JAVA在網絡爬蟲這塊的生態圈是很無缺的。

相關的資料也是最全的。這裏可能有爭議，我僅僅是隨便扯淡。

事實上開源網絡爬蟲（框架）的開發很easy，難問題和複雜的問題都被曾經的人攻克了（比方DOM樹解析和定位、字符集檢測、海量URL去重），可以說是毫無技術含量。包含Nutch，事實上Nutch的技術難點是開發hadoop，自己代碼很easy。網絡爬蟲從某種意義來講。相似遍歷本機的文件，查找文件裏的信息。

沒有不論什麼難度可言。之因此選擇開源爬蟲框架。就是爲了省事。比方爬蟲的URL管理、線程池之類的模塊。誰都能作，但是要作穩定也是需要一段時間的調試和改動的。

對於爬蟲的功能來講。

用戶比較關心的問題每每是：

1）爬蟲支持多線程麼、爬蟲能用代理麼、爬蟲會爬取反覆數據麼、爬蟲能爬取JS生成的信息麼？

不支持多線程、不支持代理、不能過濾反覆URL的。那都不叫開源爬蟲，那叫循環運行http請求。

能不能爬js生成的信息和爬蟲自己沒有太大關係。爬蟲主要是負責遍歷站點和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，每每需要經過模擬瀏覽器(htmlunit,selenium)來完畢。這些模擬瀏覽器，每每需要耗費很是多的時間來處理一個頁面。因此一種策略就是，使用這些爬蟲來遍歷站點，遇到需要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完畢JS生成信息的抽取。

2）爬蟲可以爬取ajax信息麼？

網頁上有一些異步載入的數據。爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描寫敘述過了）。或者分析ajax的http請求，本身生成ajax請求的url，獲取返回的數據。假設是本身生成ajax請求，使用開源爬蟲的意義在哪裏？事實上是要用開源爬蟲的線程池和URL管理功能（比方斷點爬取）。

假設我已經可以生成我所需要的ajax請求（列表）。怎樣用這些爬蟲來對這些請求進行爬取？

爬蟲每每都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。

爬取ajax信息屬於deep web（深網）的範疇，儘管大多數爬蟲都不直接支持。但是也可以經過一些方法來完畢。比方WebCollector使用廣度遍從來遍歷站點。爬蟲的第一輪爬取就是爬取種子集合(seeds)中的所有url。簡單來講，就是將生成的ajax請求做爲種子，放入爬蟲。用爬蟲對這些種子，進行深度爲1的廣度遍歷（默認就是廣度遍歷）。

3）爬蟲怎麼爬取要登錄的站點？

這些開源爬蟲都支持在爬取時指定cookies，模擬登錄主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你可以手動獲取、用http請求模擬登錄或者用模擬瀏覽器本身主動登錄獲取cookie。

4）爬蟲怎麼抽取網頁的信息？

開源爬蟲通常都會集成網頁抽取工具。主要支持兩種規範：CSS SELECTOR和XPATH。至於哪一個好，這裏不評價。

5）爬蟲怎麼保存網頁的信息？

有一些爬蟲，自帶一個模塊負責持久化。比方webmagic。有一個模塊叫pipeline。經過簡單地配置。可以將爬蟲抽取到的信息，持久化到文件、數據庫等。另外一些爬蟲。並無直接給用戶提供數據持久化的模塊。比方crawler4j和webcollector。

讓用戶本身在網頁處理模塊中加入提交數據庫的操做。

至於使用pipeline這樣的模塊好很差。就和操做數據庫使用ORM好很差這個問題相似，取決於你的業務。

6）爬蟲被站點封了怎麼辦？

爬蟲被站點封了，通常用多代理（隨機代理）就可以解決。

但是這些開源爬蟲通常沒有直接支持隨機代理的切換。因此用戶每每都需要本身將獲取的代理，放到一個全局數組中。本身寫一個代理隨機獲取（從數組中）的代碼。

7）網頁可以調用爬蟲麼？