來！編寫你的第一個網絡爬蟲

時間 2019-12-06

原文原文鏈接

爲了抓取網站，咱們首先須要下載包含有感興趣數據的網頁，該過程通常稱爲爬取（crawling）。爬取一個網站有不少種方法，而選用哪一種方法更加合適，則取決於目標網站的結構。本章中，咱們首先會探討如何安全地下載網頁，而後會介紹以下3種爬取網站的常見方法：html 爬取網站地圖；使用數據庫ID遍歷每一個網頁；跟蹤網頁連接。到目前爲止，咱們交替使用了抓取和爬取這兩個術語，接下來讓咱們先來定義這兩種方