網絡爬蟲初步：從一個入口連接開始不斷抓取頁面中的網址併入庫

時間 2020-05-27

原文原文鏈接

前言：在上一篇《網絡爬蟲初步：從訪問網頁到數據解析》中，咱們討論瞭如何爬取網頁，對爬取的網頁進行解析，以及訪問被拒絕的網站。在這一篇博客中，咱們能夠來了解一下拿到解析的數據能夠作的事件。在這篇博客中，我主要是說明要作的兩件事，一是入庫，二是遍歷拿到的連接繼續訪問。如此往復，這樣就構成了一個網絡爬蟲的雛形。html 筆者環境：系統： Windows 7 C

>>阅读原文<<