Python基礎入門教程之爬蟲工作流程及常用的urllib模塊

時間 2021-01-17

標籤 Python Python入門教程 Python基礎入門教程欄目 Python 简体版

原文原文鏈接

根據使用場景，網絡爬蟲可分爲通用爬蟲（傳統爬蟲）和聚焦爬蟲兩種通用網絡爬蟲捜索引擎抓取系統（Baidu、Google、Yahoo等）的重要組成部分。主要目的是將互聯網上的網頁下載到本地，形成一個互聯網內容的鏡像備份。但是大多數情況下，網頁裏面90%的內容對用戶來說是無用的。聚焦爬蟲需要根據一定的網頁分析算法過濾與主題無關的鏈接，保留有用的鏈接並將其放入等待抓取的URL隊列。然後，它將根據一定的

>>阅读原文<<