python爬蟲:不需要登錄靜態網頁抓取

簡單爬蟲架構 URL 管理器:管理待爬取URL集合和已抓取URL集合(防止重複抓取、防止循環抓取) 需要支持:1.添加新URL到待爬取集合中    2. 判斷待添加URL是否在容器中  3.從url管理器中獲取待爬取URL 4.判斷URL管理器中是否還有待爬取的URL  5.將URL從待爬取集合中移動到已爬取集合 實現方式:1.將待爬取的URL集合和已爬取的URL集合存儲在內存中    使用set
相關文章
相關標籤/搜索