2.2 基於寬度優先搜索的網頁爬蟲演示

  要抓取一個網頁,分析一個網頁,是一件很容易的事情。那麼對於搜索引擎來講,要獲取的資源是互聯網上的大量的網頁,如何抓取就是一個策略的問題。在這裏,咱們使用寬度優先的策略進行抓取。html

  寬度優先的策略是圖論中的一種方法,在網頁抓取中,能夠把一個頁面看作一個點,頁面與頁面之間的連接關係看作有向邊。具體來講,如圖所示:git

圖片來自:http://www.cnblogs.com/tuhooo/p/5447459.htmlgithub

  A頁面連接到了B,C,D,E,F頁面,E頁面又連接到了H,I頁面,F頁面又連接到了G頁面。那麼經過寬度優先的策略抓取這些頁面,抓取順序如圖:搜索引擎

圖片來自:http://www.cnblogs.com/tuhooo/p/5447459.htmlhtm

  假設給定的初始連接(抓取起點)爲A頁面,那麼根據寬度優先抓取,會先抓取距離A頁面爲1的頁面B,C,D,E,F,而後再抓取距離A頁面爲2的頁面G,H,而後再抓取距離A頁面爲3的頁面I,以此類推。能夠看出,這種抓取策略看起來很是合理,實際上也是抓取網頁的最經常使用的策略。blog

  這是這個寬度優先策略爬蟲大體思路。下一節會講解這個程序的實現原理。索引

(抱歉,此處原來有github源碼,可是感受當時寫的太醜了,打算寒假從新整理好再發出來)圖片

相關文章
相關標籤/搜索