基本爬蟲架構：實現豆瓣爬蟲

時間 2021-01-19

原文原文鏈接

一、架構原理及運行流程 1.1 架構圖解 1.2 模塊分析爬蟲調度器：爬蟲調度器只要負責統籌其他四個模塊的協調工作。 URL 管理器：負責管理 URL 鏈接，維護已經爬取的 URL 集合和未爬取的 URL 集合，提供獲取新 URL 鏈接接口。 HTML 下載器：用於從 URL 管理器中獲取未爬取的 URL 鏈接並下載 HTML 網頁。 HTML 解析器：用於從 HTML 下載器中獲取已經下載的

>>阅读原文<<