開源爬蟲綜述

時間 2019-11-09
原文原文鏈接
開發網絡爬蟲應該選擇Nutch、Crawler4j、WebMagic、scrapy、WebCollector仍是其餘的？這裏按照個人經驗隨便扯淡一下：上面說的爬蟲，基本能夠分3類：1.分佈式爬蟲：Nutch　　2.JAVA單機爬蟲：Crawler4j、WebMagic、WebCollector　　3. 非JAVA單機爬蟲：scrapy　　第一類：分佈式爬蟲　　爬蟲使用分佈式，主要是解決兩個問題：　　1）海量URL管理　　2）網速　　如今比較流行的分佈式爬蟲，是Apache的Nutch。可是對於大多數用戶來講，Nutch是這幾類爬蟲裏，最很差的選擇，理由以下：　　1）Nutch是爲搜索引擎設計的爬蟲，大多數用戶是須要一個作精準數據爬取（精抽取）的爬蟲。Nutch運行的一套流程裏，有三分之二是爲了搜索引擎而設計的。對精抽取沒有太大的意義。也就是說，用Nutch作數據抽取，會浪費不少的時間在沒必要要的計算上。並且若是你試圖經過對Nutch進行二次開發，來使得它適用於精抽取的業務，基本上就要破壞Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如本身從新寫一個分佈式爬蟲框架了。　　2）Nutch依賴hadoop運行，hadoop自己會消耗不少的時間。若是集羣機器數量較少，爬取速度反而不如單機爬蟲快。　　3）Nutch雖然有一套插件機制，並且做爲亮點宣傳。能夠看到一些開源的Nutch插件，提供精抽取的功能。可是開發過Nutch插件的人都知道，Nutch的插件系統有多蹩腳。利用反射的機制來加載和調用插件，使得程序的編寫和調試都變得異常困難，更別說在上面開發一套複雜的精抽取系統了。並且Nutch並無爲精抽取提供相應的插件掛載點。Nutch的插件有隻有五六個掛載點，而這五六個掛載點都是爲了搜索引擎服務的，並無爲精抽取提供掛載點。大多數Nutch的精抽取插件，都是掛載在「頁面解析」（parser）這個掛載點的，這個掛載點實際上是爲了解析連接（爲後續爬取提供URL），以及爲搜索引擎提供一些易抽取的網頁信息（網頁的meta信息、text文本）。　　4）用Nutch進行爬蟲的二次開發，爬蟲的編寫和調試所需的時間，每每是單機爬蟲所需的十倍時間不止。瞭解Nutch源碼的學習成本很高，況且是要讓一個團隊的人都讀懂Nutch源碼。調試過程當中會出現除程序自己以外的各類問題（hadoop的問題、hbase的問題）。　　5）不少人說Nutch2有gora，能夠持久化數據到avro文件、hbase、mysql等。不少人其實理解錯了，這裏說的持久化數據，是指將URL信息（URL管理所須要的數據）存放到avro、hbase、mysql。並非你要抽取的結構化數據。其實對大多數人來講，URL信息存在哪裏無所謂。　　6）Nutch2的版本目前並不適合開發。官方如今穩定的Nutch版本是nutch2.2.1，可是這個版本綁定了gora-0.3。若是想用hbase配合nutch（大多數人用nutch2就是爲了用hbase），只能使用0.90版本左右的hbase，相應的就要將hadoop版本降到hadoop 0.2左右。並且nutch2的官方教程比較有誤導做用，Nutch2的教程有兩個，分別是Nutch1.x和Nutch2.x，這個Nutch2.x官網上寫的是能夠支持到hbase 0.94。可是實際上，這個Nutch2.x的意思是Nutch2.3以前、Nutch2.2.1以後的一個版本，這個版本在官方的SVN中不斷更新。並且很是不穩定（一直在修改）。　　因此，若是你不是要作搜索引擎，儘可能不要選擇Nutch做爲爬蟲。有些團隊就喜歡跟風，非要選擇Nutch來開發精抽取的爬蟲，實際上是衝着Nutch的名氣（Nutch做者是Doug Cutting），固然最後的結果每每是項目延期完成。　　若是你是要作搜索引擎，Nutch1.x是一個很是好的選擇。Nutch1.x和solr或者es配合，就能夠構成一套很是強大的搜索引擎了。若是非要用Nutch2的話，建議等到Nutch2.3發佈再看。目前的Nutch2是一個很是不穩定的版本。　　第二類：JAVA單機爬蟲　　這裏把JAVA爬蟲單獨分爲一類，是由於JAVA在網絡爬蟲這塊的生態圈是很是完善的。相關的資料也是最全的。這裏可能有爭議，我只是隨便扯淡。　　其實開源網絡爬蟲（框架）的開發很是簡單，難問題和複雜的問題都被之前的人解決了（好比DOM樹解析和定位、字符集檢測、海量URL去重），能夠說是毫無技術含量。包括Nutch，其實Nutch的技術難點是開發hadoop，自己代碼很是簡單。網絡爬蟲從某種意義來講，相似遍歷本機的文件，查找文件中的信息。沒有任何難度可言。之因此選擇開源爬蟲框架，就是爲了省事。好比爬蟲的URL管理、線程池之類的模塊，誰都能作，可是要作穩定也是須要一段時間的調試和修改的。　　對於爬蟲的功能來講。用戶比較關心的問題每每是：　　1）爬蟲支持多線程麼、爬蟲能用代理麼、爬蟲會爬取重複數據麼、爬蟲能爬取JS生成的信息麼？　　不支持多線程、不支持代理、不能過濾重複URL的，那都不叫開源爬蟲，那叫循環執行http請求。　　能不能爬js生成的信息和爬蟲自己沒有太大關係。爬蟲主要是負責遍歷網站和下載頁面。爬js生成的信息和網頁信息抽取模塊有關，每每須要經過模擬瀏覽器（htmlunit,selenium）來完成。這些模擬瀏覽器，每每須要耗費不少的時間來處理一個頁面。因此一種策略就是，使用這些爬蟲來遍歷網站，遇到須要解析的頁面，就將網頁的相關信息提交給模擬瀏覽器，來完成JS生成信息的抽取。　　2）爬蟲能夠爬取ajax信息麼？　　網頁上有一些異步加載的數據，爬取這些數據有兩種方法：使用模擬瀏覽器（問題1中描述過了），或者分析ajax的http請求，本身生成ajax請求的url，獲取返回的數據。若是是本身生成ajax請求，使用開源爬蟲的意義在哪裏？實際上是要用開源爬蟲的線程池和URL管理功能（好比斷點爬取）。　　若是我已經能夠生成我所須要的ajax請求（列表），如何用這些爬蟲來對這些請求進行爬取？　　爬蟲每每都是設計成廣度遍歷或者深度遍歷的模式，去遍歷靜態或者動態頁面。爬取ajax信息屬於deep web（深網）的範疇，雖然大多數爬蟲都不直接支持。可是也能夠經過一些方法來完成。好比WebCollector使用廣度遍從來遍歷網站。爬蟲的第一輪爬取就是爬取種子集合（seeds）中的全部url。簡單來講，就是將生成的ajax請求做爲種子，放入爬蟲。用爬蟲對這些種子，進行深度爲1的廣度遍歷（默認就是廣度遍歷）。　　3）爬蟲怎麼爬取要登錄的網站？　　這些開源爬蟲都支持在爬取時指定cookies，模擬登錄主要是靠cookies。至於cookies怎麼獲取，不是爬蟲管的事情。你能夠手動獲取、用http請求模擬登錄或者用模擬瀏覽器自動登錄獲取cookie。　　4）爬蟲怎麼抽取網頁的信息？　　開源爬蟲通常都會集成網頁抽取工具。主要支持兩種規範：CSS SELECTOR和XPATH。至於哪一個好，這裏不評價。　　5）爬蟲怎麼保存網頁的信息？　　有一些爬蟲，自帶一個模塊負責持久化。好比webmagic，有一個模塊叫pipeline。經過簡單地配置，能夠將爬蟲抽取到的信息，持久化到文件、數據庫等。還有一些爬蟲，並無直接給用戶提供數據持久化的模塊。好比crawler4j和webcollector。讓用戶本身在網頁處理模塊中添加提交數據庫的操做。至於使用pipeline這種模塊好很差，就和操做數據庫使用ORM好很差這個問題相似，取決於你的業務。　　6）爬蟲被網站封了怎麼辦？　　爬蟲被網站封了，通常用多代理（隨機代理）就能夠解決。可是這些開源爬蟲通常沒有直接支持隨機代理的切換。因此用戶每每都須要本身將獲取的代理，放到一個全局數組中，本身寫一個代理隨機獲取（從數組中）的代碼。　　7）網頁能夠調用爬蟲麼？　　爬蟲的調用是在Web的服務端調用的，平時怎麼用就怎麼用，這些爬蟲均可以使用。　　8）爬蟲速度怎麼樣？　　單機開源爬蟲的速度，基本均可以講本機的網速用到極限。爬蟲的速度慢，每每是由於用戶把線程數開少了、網速慢，或者在數據持久化時，和數據庫的交互速度慢。而這些東西，每每都是用戶的機器和二次開發的代碼決定的。這些開源爬蟲的速度，都很能夠。　　9）明明代碼寫對了，爬不到數據，是否是爬蟲有問題，換個爬蟲能解決麼？　　若是代碼寫對了，又爬不到數據，換其餘爬蟲也是同樣爬不到。遇到這種狀況，要麼是網站把你封了，要麼是你爬的數據是javascript生成的。爬不到數據經過換爬蟲是不能解決的。　　10）哪一個爬蟲能夠判斷網站是否爬完、那個爬蟲能夠根據主題進行爬取？　　爬蟲沒法判斷網站是否爬完，只能儘量覆蓋。　　至於根據主題爬取，爬蟲以後把內容爬下來才知道是什麼主題。因此通常都是整個爬下來，而後再去篩選內容。若是嫌爬的太泛，能夠經過限制URL正則等方式，來縮小一下範圍。　　11）哪一個爬蟲的設計模式和構架比較好？　　設計模式純屬扯淡。說軟件設計模式好的，都是軟件開發完，而後總結出幾個設計模式。設計模式對軟件開發沒有指導性做用。用設計模式來設計爬蟲，只會使得爬蟲的設計更加臃腫。　　至於構架，開源爬蟲目前主要是細節的數據結構的設計，好比爬取線程池、任務隊列，這些你們都能控制好。爬蟲的業務太簡單，談不上什麼構架。　　因此對於JAVA開源爬蟲，我以爲，隨便找一個用的順手的就能夠。若是業務複雜，拿哪一個爬蟲來，都是要通過複雜的二次開發，才能夠知足需求。　　第三類：非JAVA單機爬蟲　　在非JAVA語言編寫的爬蟲中，有不少優秀的爬蟲。這裏單獨提取出來做爲一類，並非針對爬蟲自己的質量進行討論，而是針對larbin、scrapy這類爬蟲，對開發成本的影響。　　先說python爬蟲，python能夠用30行代碼，完成JAVA 50行代碼乾的任務。python寫代碼的確快，可是在調試代碼的階段，python代碼的調試每每會耗費遠遠多於編碼階段省下的時間。使用python開發，要保證程序的正確性和穩定性，就須要寫更多的測試模塊。固然若是爬取規模不大、爬取業務不復雜，使用scrapy這種爬蟲也是蠻不錯的，能夠輕鬆完成爬取任務。　　對於C++爬蟲來講，學習成本會比較大。並且不能只計算一我的的學習成本，若是軟件須要團隊開發或者交接，那就是不少人的學習成本了。軟件的調試也不是那麼容易。　　還有一些ruby、php的爬蟲，這裏很少評價。的確有一些很是小型的數據採集任務，用ruby或者php很方便。可是選擇這些語言的開源爬蟲，一方面要調研一下相關的生態圈，還有就是，這些開源爬蟲可能會出一些你搜不到的BUG（用的人少、資料也少）
相關標籤/搜索
每日一句
每一个你不满意的现在，都有一个你没有努力的曾经。