python爬蟲：不需要登錄靜態網頁抓取

時間 2021-01-09

原文原文鏈接

簡單爬蟲架構 URL 管理器：管理待爬取URL集合和已抓取URL集合（防止重複抓取、防止循環抓取）需要支持：1.添加新URL到待爬取集合中 2. 判斷待添加URL是否在容器中 3.從url管理器中獲取待爬取URL 4.判斷URL管理器中是否還有待爬取的URL 5.將URL從待爬取集合中移動到已爬取集合實現方式：1.將待爬取的URL集合和已爬取的URL集合存儲在內存中使用set

>>阅读原文<<