2.2 基於寬度優先搜索的網頁爬蟲演示

時間 2019-11-12

原文原文鏈接

要抓取一個網頁，分析一個網頁，是一件很容易的事情。那麼對於搜索引擎來講，要獲取的資源是互聯網上的大量的網頁，如何抓取就是一個策略的問題。在這裏，咱們使用寬度優先的策略進行抓取。html

寬度優先的策略是圖論中的一種方法，在網頁抓取中，能夠把一個頁面看作一個點，頁面與頁面之間的連接關係看作有向邊。具體來講，如圖所示：git

A頁面連接到了B,C,D,E,F頁面，E頁面又連接到了H,I頁面，F頁面又連接到了G頁面。那麼經過寬度優先的策略抓取這些頁面，抓取順序如圖：搜索引擎

假設給定的初始連接（抓取起點）爲A頁面，那麼根據寬度優先抓取，會先抓取距離A頁面爲1的頁面B,C,D,E,F，而後再抓取距離A頁面爲2的頁面G,H，而後再抓取距離A頁面爲3的頁面I，以此類推。能夠看出，這種抓取策略看起來很是合理，實際上也是抓取網頁的最經常使用的策略。blog

這是這個寬度優先策略爬蟲大體思路。下一節會講解這個程序的實現原理。索引

（抱歉，此處原來有github源碼，可是感受當時寫的太醜了，打算寒假從新整理好再發出來）圖片

相關標籤/搜索