第一章認識網絡爬蟲

時間 2020-08-11

原文原文鏈接

第一章什麼是網絡爬蟲
前言：
如何可以自動高效獲取互聯網中咱們所感興趣的內容就是須要爬蟲技術所專研的。
而咱們感興趣的信息又分爲不一樣類型：若是是作搜索引擎，那麼感興趣的信息就是高質
量網頁；若是要獲取某一領域的數據或者是明確的檢索需求，那麼感性趣的信息就是
根據咱們的檢索和需求定位相關信息，同時也須要過濾一些無用、干擾的信息。

1.1 初始網絡爬蟲
網絡爬蟲又稱爲網絡蜘蛛、網絡螞蟻、網絡機器等，能夠自動化瀏覽網絡中信息，而咱們
爬取的信息須要按照咱們制定的規則進行，這些規則咱們稱之爲網絡爬蟲算法。

使用python可以便於編寫爬蟲程序，進行互聯網信息自動化檢索。

搜索引擎離不開爬蟲，如百度搜素引擎爬蟲成爲百度蜘蛛。須要百度蜘蛛天天
在海量的互聯網信息中進行爬取，爬取優質信息並收錄，當用戶在百度搜索引擎上檢
索對應關鍵詞時，百度將對關鍵詞進行分析處理，從收錄的網頁中找出相關網頁，
按照必定的排名規則進行排序並將結果展示給用戶。

而對於這些優質網頁的查找及網頁排序及去重是經過百度蜘蛛爬蟲算法實現的。從中
使用不一樣的算法所取得的結果是不同的，若是將優質網頁查找出來及網頁排序去重作到
更加優質，就須要改進/更新算法。因此，咱們有必要對爬蟲算法要有所瞭解，而且也要有
本身建立算法的心理準備。

除了百度搜索引擎離不開爬蟲之外，其餘搜索引擎也離不開爬蟲，它們也擁有本身
的爬蟲。好比360的爬蟲叫360Spider，搜狗的爬蟲叫Sogouspider，必應的爬蟲叫
Bingbot。
若是想本身實現一款小型的搜索引擎，咱們也能夠編寫出本身的爬蟲去實現，
固然，雖然可能在性能或者算法上比不上主流的搜索引擎，可是個性化的程
度會很是高，而且也有利於咱們更深層次地理解搜索引擎內部的工做原理。

在先進的大數據時代是離不開爬蟲的，好比在進行大數據分析或數據挖掘時，咱們能夠
去一些比較大型的官方站點下載數據資源，而如何可以從這些資源中獲取高質量的
的數據源，這就是爬蟲須要解決的；同時對於我的而言，因爲信息愈來愈多，如何
精確獲取本身感興趣的信息，也是咱們爲本身準備的搜索引擎。

1.2 爲何要學習網絡爬蟲

1 學習爬蟲，能夠私人定製一個搜索引擎，而且能夠對搜索引擎的數據採集的工做原
理進行更深層次的理解。
簡單來講，咱們學會了爬蟲編寫以後，就能夠利用爬蟲自動地採集互聯網中的信息，
採集回來後進行相應的存儲或處理，在須要檢索某些信息的時候，只需在採集回來
的信息中進行檢索，即實現了私人的搜索引擎。固然，信息怎麼爬取、怎麼存儲、
怎麼進行分詞、怎麼進行相關性計算等，都是須要咱們進行設計的，爬蟲技術主要
解決信息爬取的問題。

2 大數據時代，要進行數據分析，首先要有數據源，而學習爬蟲，可讓咱們獲取更多
   的數據源

3 對於不少SEO從業者來講，學習爬蟲，能夠更深層次地理解搜索引擎爬蟲的工做原理，
   從而能夠更好地進行搜索引擎優化

4）從就業的角度來講，爬蟲工程師目前來講屬於緊缺人才，而且薪資待遇廣泛較高

你還有一些其餘學習爬蟲的緣由，總之，不論是什麼緣由，理清本身學習的目的，
就能夠更好地去研

1.3 網絡爬蟲的組成
網絡爬蟲由控制節點、爬蟲節點和資源庫構成。

                                                  圖1-1所示是網絡爬蟲的控制節點和爬蟲節點的結構關係
python

從中能夠看到，每一個控制節點中能夠有一個或多個爬蟲節點而且可以相互通訊，控制節點之間能夠
相互通訊；屬於同一個控制節點下的各爬蟲節點也能夠相互通訊。

控制節點，也叫做爬蟲的中央控制器，主要負責根據URL地址分配線程，並調用爬蟲節點
進行具體的爬行。

爬蟲節點會按照相關的算法，對網頁進行具體的爬行，主要包括下載網頁以及對網頁
的文本進行處理，爬行後，會將對應的爬行結果存儲到對應的資源庫中。

1.4 爬蟲類型：

網絡爬蟲按照實現的技術和結構能夠分爲通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲
、深層網絡爬蟲等類型。
1.4.1 通用網絡爬蟲
通用網絡爬蟲（General Purpose Web Crawler）也成爲全網爬蟲，從中可知其目標
資源在全互聯網中。從中能夠預測經過用網絡爬蟲所獲的的目標數據是巨大的，爬行
範圍也是很是大的，那麼可以支撐起這類爬蟲的，其相關硬件與軟件的性能要求也是很是高的，
這類爬蟲主要應用在大型搜索引擎中。

通用網絡爬蟲主要由URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數據
庫、連接過濾模塊等構成。通用網絡爬蟲在爬行的時候會採起必定的爬行策略，
主要有深度優先爬行策略和廣度優先爬行策略。

1.4.2 聚焦網絡爬蟲
聚焦網絡爬蟲（Focunsed Crawler）也叫作主題網絡爬蟲。聚焦網絡爬蟲是按照預先定義
的主題有目的的進行網絡爬取的一種爬蟲，聚焦網絡爬蟲不一樣於網絡爬蟲同樣將目標資源
定位在全互聯網中，而是將爬取目標定位在與主題相關的頁面中，此時，能夠大大節省爬
蟲所需爬取所需的寬帶資源和服務器資源。聚焦網絡爬蟲主要應用在對特定信息的爬取中
，主要爲某一類特定的人羣提供服務。

聚焦網絡爬蟲主要由初始URL集合、URL隊列、頁面爬行模塊、頁面分析模塊、頁面數據庫、
連接過濾模塊、內容評價模塊、連接評價模塊等構成。內容評價模塊能夠評價內容的重要性，
同理，連接評價模塊也能夠評價出連接的重要性，而後根據連接和內容的重要性，能夠肯定
哪些頁面優先訪問。聚焦網絡爬蟲的爬行策略主要有4種，即基於內容評價的爬行策略、
基於連接評價的爬行策略、基於加強學習的爬行策略和基於語境圖的爬行策略。

1.4.3 增量式網絡爬蟲
增量式網絡爬蟲(Incremental Web Crawler),所謂增量式，對應着增量式更新。增量式更新
指的是在更新的時候只更新改變的地方，而未改變的地方則不更新。因此，增量式網絡爬蟲
就是隻爬取發生變化的網頁或者是新網頁，對於未發生內容改變的網頁則不需爬取，從而保證了
所爬取到的頁面儘量是新頁面。

1.4.4 深層網絡怕從
深層網絡爬蟲（Deep Web Crawler），能夠爬取互聯網中深層頁面。在互聯網中網頁按存在
方式分類，可分爲表層頁面和深層頁面。所謂的表層頁面，指的是不須要提交表單，使用靜
態的連接就可以到達的靜態頁面；而深層頁面則隱藏在表單後面，不能經過靜態連接直接獲
取，是須要提交必定的關鍵詞以後纔可以獲取獲得的頁面。在互聯網中，深層頁面的數量往
往比表層頁面的數量要多不少，故而，咱們須要想辦法爬取深層頁面。

爬取深層頁面，須要想辦法自動填寫好對應表單，因此，深層網絡爬蟲最重要的部分即爲表
單填寫部分。

深層網絡爬蟲主要由URL列表、LVS列表（LVS指的是標籤/數值集合，即填充表單的數據源）、
爬行控制器、解析器、LVS控制器、表單分析器、表單處理器、響應分析器等部分構成。

深層網絡爬蟲表單的填寫有兩種類型：第一種是基於領域知識的表單填寫，簡單來講就是
創建一個填寫表單的關鍵詞庫，在須要填寫的時候，根據語義分析選擇對應的關鍵詞進行
填寫；第二種是基於網頁結構分析的表單填寫，簡單來講，這種填寫方式通常是領域知識
有限的狀況下使用，這種方式會根據網頁結構進行分析，並自動地進行表單填寫。

1.5 聚焦爬蟲
圖1-2所示爲聚焦爬蟲運行的流程，熟悉該流程後，咱們能夠更清晰地知道聚焦爬蟲的工做
原理和過程。

首先，聚焦爬蟲擁有一個控制中心，該控制中心負責對整個爬蟲系統進行管理和監控，主要
包括控制用戶交互、初始化爬行器、肯定主題、協調各模塊間的工做、控制爬行過程等。

而後，控制中心將初始的URL集合傳遞給URL隊列，頁面爬行模塊會從URL隊列中讀取第一批URL
列表，而後根據這些URL地址從互聯網中進行相應的頁面爬取。爬取後，將爬取到的內容傳到
頁面數據庫中存儲，同時，在爬行過程當中，會爬取到一些新的URL，此時，須要咱們根據所定的
主題使用連接過濾模塊來過濾無用的URL（連接），在將剩下的URL連接根據主題使用連接評價
模塊或內容評價模塊進行優先級的排序。完成後，將新的URL地址傳遞到URL隊列中，供頁面爬
行模塊使用。另外一方面，將頁面爬取並存放到頁面數據庫後，須要根據主題使用頁面分析模塊
對爬取到的頁面進行頁面分析處理，並根據處理結果創建索引數據庫，用戶檢索對應信息時，
能夠從索引數據庫中進行相應的檢索，並獲得對應的結果。

這就是聚焦爬蟲的主要工做流程，瞭解聚焦爬蟲的主要工做流程有助於咱們編寫聚焦爬蟲，使
編寫的思路更加清晰。算法