有些人問,開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector仍是其它的?這裏依照個人經驗隨便扯淡一下:javascript
上面說的爬蟲,基本可以分3類:php
1.分佈式爬蟲:Nutchhtml
2.JAVA單機爬蟲:Crawler4j、WebMagic、WebCollectorjava
3. 非JAVA單機爬蟲:scrapy
python
第一類:分佈式爬蟲mysql
爬蟲使用分佈式。主要是解決兩個問題:web
1)海量URL管理ajax
2)網速sql
現在比較流行的分佈式爬蟲,是Apache的Nutch。數據庫
但是對於大多數用戶來講,Nutch是這幾類爬蟲裏,最很差的選擇,理由例如如下:
1)Nutch是爲搜索引擎設計的爬蟲,大多數用戶是需要一個作精準數據爬取(精抽取)的爬蟲。Nutch執行的一套流程裏,有三分之二是爲了搜索引擎而設計的。對精抽取沒有太大的意義。
也就是說,用Nutch作數據抽取。會浪費很是多的時間在沒必要要的計算上。而且假設你試圖經過對Nutch進行二次開發,來使得它適用於精抽取的業務。基本上就要破壞Nutch的框架,把Nutch改的面目全非。有改動Nutch的能力,真的不如本身又一次寫一個分佈式爬蟲框架了。
2)Nutch依賴hadoop執行,hadoop自己會消耗很是多的時間。假設集羣機器數量較少。爬取速度反而不如單機爬蟲快。
3)Nutch儘管有一套插件機制,而且做爲亮點宣傳。可以看到一些開源的Nutch插件。提供精抽取的功能。但是開發過Nutch插件的人都知道。Nutch的插件系統有多蹩腳。
利用反射的機制來載入和調用插件。使得程序的編寫和調試都變得異常困難,更別說在上面開發一套複雜的精抽取系統了。而且Nutch並無爲精抽取提供對應的插件掛載點。
Nutch的插件有僅僅有五六個掛載點,而這五六個掛載點都是爲了搜索引擎服務的。並無爲精抽取提供掛載點。
大多數Nutch的精抽取插件,都是掛載在「頁面解析」(parser)這個掛載點的,這個掛載點事實上是爲了解析連接(爲興許爬取提供URL),以及爲搜索引擎提供一些易抽取的網頁信息(網頁的meta信息、text文本)。
4)用Nutch進行爬蟲的二次開發,爬蟲的編寫和調試所需的時間,每每是單機爬蟲所需的十倍時間不止。瞭解Nutch源代碼的學習成本很是高,況且是要讓一個團隊的人都讀懂Nutch源代碼。調試過程當中會出現除程序自己以外的各類問題(hadoop的問題、hbase的問題)。
5)很是多人說Nutch2有gora。可以持久化數據到avro文件、hbase、mysql等。
很是多人事實上理解錯了。這裏說的持久化數據。是指將URL信息(URL管理所需要的數據)存放到avro、hbase、mysql。並不是你要抽取的結構化數據。事實上對大多數人來講,URL信息存在哪裏無所謂。
6)Nutch2的版本號眼下並不適合開發。
官方現在穩定的Nutch版本號是nutch2.2.1,但是這個版本號綁定了gora-0.3。假設想用hbase配合nutch(大多數人用nutch2就是爲了用hbase)。僅僅能使用0.90版本號左右的hbase,對應的就要將hadoop版本號降到hadoop 0.2左右。而且nutch2的官方教程比較有誤導做用,Nutch2的教程有兩個,各自是Nutch1.x和Nutch2.x,這個Nutch2.x官網上寫的是可以支持到hbase 0.94。
但是實際上。這個Nutch2.x的意思是Nutch2.3以前、Nutch2.2.1以後的一個版本號,這個版本號在官方的SVN中不斷更新。而且很不穩定(一直在改動)。
因此。假設你不是要作搜索引擎。儘可能不要選擇Nutch做爲爬蟲。有些團隊就喜歡跟風,非要選擇Nutch來開發精抽取的爬蟲,事實上是衝着Nutch的名氣(Nutch做者是Doug Cutting),固然最後的結果每每是項目延期完畢。
假設你是要作搜索引擎。Nutch1.x是一個很好的選擇。Nutch1.x和solr或者es配合,就可以構成一套很強大的搜索引擎了。假設非要用Nutch2的話。建議等到Nutch2.3公佈再看。眼下的Nutch2是一個很不穩定的版本號。
第二類:JAVA單機爬蟲
這裏把JAVA爬蟲單獨分爲一類,是因爲JAVA在網絡爬蟲這塊的生態圈是很無缺的。
相關的資料也是最全的。這裏可能有爭議,我僅僅是隨便扯淡。
事實上開源網絡爬蟲(框架)的開發很easy,難問題和複雜的問題都被曾經的人攻克了(比方DOM樹解析和定位、字符集檢測、海量URL去重),可以說是毫無技術含量。包含Nutch,事實上Nutch的技術難點是開發hadoop,自己代碼很easy。網絡爬蟲從某種意義來講。相似遍歷本機的文件,查找文件裏的信息。
沒有不論什麼難度可言。之因此選擇開源爬蟲框架。就是爲了省事。比方爬蟲的URL管理、線程池之類的模塊。誰都能作,但是要作穩定也是需要一段時間的調試和改動的。
對於爬蟲的功能來講。
用戶比較關心的問題每每是:
1)爬蟲支持多線程麼、爬蟲能用代理麼、爬蟲會爬取反覆數據麼、爬蟲能爬取JS生成的信息麼?
不支持多線程、不支持代理、不能過濾反覆URL的。那都不叫開源爬蟲,那叫循環運行http請求。
能不能爬js生成的信息和爬蟲自己沒有太大關係。爬蟲主要是負責遍歷站點和下載頁面。爬js生成的信息和網頁信息抽取模塊有關,每每需要經過模擬瀏覽器(htmlunit,selenium)來完畢。這些模擬瀏覽器,每每需要耗費很是多的時間來處理一個頁面。因此一種策略就是,使用這些爬蟲來遍歷站點,遇到需要解析的頁面,就將網頁的相關信息提交給模擬瀏覽器,來完畢JS生成信息的抽取。
2)爬蟲可以爬取ajax信息麼?
網頁上有一些異步載入的數據。爬取這些數據有兩種方法:使用模擬瀏覽器(問題1中描寫敘述過了)。或者分析ajax的http請求,本身生成ajax請求的url,獲取返回的數據。假設是本身生成ajax請求,使用開源爬蟲的意義在哪裏?事實上是要用開源爬蟲的線程池和URL管理功能(比方斷點爬取)。
假設我已經可以生成我所需要的ajax請求(列表)。怎樣用這些爬蟲來對這些請求進行爬取?
爬蟲每每都是設計成廣度遍歷或者深度遍歷的模式,去遍歷靜態或者動態頁面。
爬取ajax信息屬於deep web(深網)的範疇,儘管大多數爬蟲都不直接支持。但是也可以經過一些方法來完畢。比方WebCollector使用廣度遍從來遍歷站點。爬蟲的第一輪爬取就是爬取種子集合(seeds)中的所有url。簡單來講,就是將生成的ajax請求做爲種子,放入爬蟲。用爬蟲對這些種子,進行深度爲1的廣度遍歷(默認就是廣度遍歷)。
3)爬蟲怎麼爬取要登錄的站點?
這些開源爬蟲都支持在爬取時指定cookies,模擬登錄主要是靠cookies。至於cookies怎麼獲取,不是爬蟲管的事情。你可以手動獲取、用http請求模擬登錄或者用模擬瀏覽器本身主動登錄獲取cookie。
4)爬蟲怎麼抽取網頁的信息?
開源爬蟲通常都會集成網頁抽取工具。主要支持兩種規範:CSS SELECTOR和XPATH。至於哪一個好,這裏不評價。
5)爬蟲怎麼保存網頁的信息?
有一些爬蟲,自帶一個模塊負責持久化。比方webmagic。有一個模塊叫pipeline。經過簡單地配置。可以將爬蟲抽取到的信息,持久化到文件、數據庫等。另外一些爬蟲。並無直接給用戶提供數據持久化的模塊。比方crawler4j和webcollector。
讓用戶本身在網頁處理模塊中加入提交數據庫的操做。
至於使用pipeline這樣的模塊好很差。就和操做數據庫使用ORM好很差這個問題相似,取決於你的業務。
6)爬蟲被站點封了怎麼辦?
爬蟲被站點封了,通常用多代理(隨機代理)就可以解決。
但是這些開源爬蟲通常沒有直接支持隨機代理的切換。因此用戶每每都需要本身將獲取的代理,放到一個全局數組中。本身寫一個代理隨機獲取(從數組中)的代碼。
7)網頁可以調用爬蟲麼?
爬蟲的調用是在Web的服務端調用的,平時怎麼用就怎麼用,這些爬蟲都可以使用。
8)爬蟲速度怎麼樣?
單機開源爬蟲的速度。基本都可以講本機的網速用到極限。
爬蟲的速度慢。每每是因爲用戶把線程數開少了、網速慢。或者在數據持久化時,和數據庫的交互速度慢。而這些東西,每每都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度,都很是可以。
9)明明代碼寫對了,爬不到數據,是否是爬蟲有問題。換個爬蟲能解決麼?
假設代碼寫對了。又爬不到數據,換其它爬蟲也是同樣爬不到。遇到這樣的狀況,要麼是站點把你封了,要麼是你爬的數據是javascript生成的。
爬不到數據經過換爬蟲是不能解決的。
10)哪一個爬蟲可以推斷站點是否爬完、那個爬蟲可以依據主題進行爬取?
爬蟲沒法推斷站點是否爬完。僅僅能儘量覆蓋。
至於依據主題爬取,爬蟲以後把內容爬下來才知道是什麼主題。因此通常都是整個爬下來。而後再去篩選內容。假設嫌爬的太泛,可以經過限制URL正則等方式,來縮小一下範圍。
11)哪一個爬蟲的設計模式和構架比較好?
設計模式純屬扯淡。說軟件設計模式好的,都是軟件開發完,而後總結出幾個設計模式。
設計模式對軟件開發沒有指導性做用。用設計模式來設計爬蟲,僅僅會使得爬蟲的設計更加臃腫。
至於構架,開源爬蟲眼下主要是細節的數據結構的設計,比方爬取線程池、任務隊列,這些你們都能控制好。爬蟲的業務太簡單,談不上什麼構架。
因此對於JAVA開源爬蟲,我認爲。隨便找一個用的順手的就可以。假設業務複雜,拿哪一個爬蟲來,都是要通過複雜的二次開發,才幹夠知足需求。
第三類:非JAVA單機爬蟲
在非JAVA語言編寫的爬蟲中,有很是多優秀的爬蟲。
這裏單獨提取出來做爲一類。並不是針對爬蟲自己的質量進行討論,而是針對larbin、scrapy這類爬蟲,對開發成本的影響。
先說python爬蟲。python可以用30行代碼。完畢JAVA 50行代碼乾的任務。python寫代碼的確快,但是在調試代碼的階段,python代碼的調試每每會耗費遠遠多於編碼階段省下的時間。使用python開發,要保證程序的正確性和穩定性,就需要寫不少其它的測試模塊。
固然假設爬取規模不大、爬取業務不復雜。使用scrapy這樣的爬蟲也是蠻不錯的。可以輕鬆完畢爬取任務。
對於C++爬蟲來講,學習成本會比較大。
而且不能僅僅計算一我的的學習成本,假設軟件需要團隊開發或者交接,那就是很是多人的學習成本了。軟件的調試也不是那麼easy。
另外一些ruby、php的爬蟲。這裏很少評價。的確有一些很是小型的數據採集任務,用ruby或者php很是方便。但是選擇這些語言的開源爬蟲,一方面要調研一下相關的生態圈,還有就是,這些開源爬蟲可能會出一些你搜不到的BUG(用的人少、資料也少)。
可以增長網絡爬蟲技術社區一塊兒討論: