Python數據採集-開始爬蟲

時間 2021-01-07

原文原文鏈接

目標捉取網頁外鏈，遞歸循環實現。一遍歷單個域名網頁爬蟲，就是對目標網頁進行捉取，然後遍歷到數據信息，然後有鏈接的繼續遍歷，如此回調。第一步：將頁面的所有鏈接獲取運行效果圖發現會存在些沒用用的數據，有些href的值只是作爲頁面塊的跳轉，我們可以使用正則表達式進行優化過濾掉，只獲取帶有HTML結尾的鏈接第二步：遞歸獲取網頁第一步我們基本把一個網頁的所有鏈接地址獲取到，第二步顯然是獲取這

>>阅读原文<<