基本爬蟲架構:實現豆瓣爬蟲

一、架構原理及運行流程 1.1 架構圖解 1.2 模塊分析 爬蟲調度器:爬蟲調度器只要負責統籌其他四個模塊的協調工作。 URL 管理器:負責管理 URL 鏈接,維護已經爬取的 URL 集合和未爬取的 URL 集合,提供獲取新 URL 鏈接接口。 HTML 下載器:用於從 URL 管理器中獲取未爬取的 URL 鏈接並下載 HTML 網頁。 HTML 解析器:用於從 HTML 下載器中獲取已經下載的
相關文章
相關標籤/搜索