《本身動手寫網絡爬蟲》讀書筆記——寬度優先爬蟲和帶偏好的爬蟲

  前面只是獲取了單個網頁內容,在實際中,則使用爬蟲程序遍歷互聯網,把網絡中相關的網頁所有抓取過來,這也體現了爬蟲程序「爬」的概念。html   互聯網能夠當作一個超級大的「圖',而每一個網頁則能夠看做是一個」節點「。頁面中的連接能夠當作是圖的」有向邊「。所以,能夠經過圖的遍歷的方式對互聯網這個」圖「進行訪問。圖的遍歷分爲寬度優先和深度優先,但深度優先可能會在深度上過於」深」的遍歷或者陷入「黑洞」
相關文章
相關標籤/搜索