來!編寫你的第一個網絡爬蟲

爲了抓取網站,咱們首先須要下載包含有感興趣數據的網頁,該過程通常稱爲爬取(crawling)。爬取一個網站有不少種方法,而選用哪一種方法更加合適,則取決於目標網站的結構。本章中,咱們首先會探討如何安全地下載網頁,而後會介紹以下3種爬取網站的常見方法:html 爬取網站地圖; 使用數據庫ID遍歷每一個網頁; 跟蹤網頁連接。 到目前爲止,咱們交替使用了抓取和爬取這兩個術語,接下來讓咱們先來定義這兩種方
相關文章
相關標籤/搜索