python爬蟲(三)URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合 -防止重複抓取,防止循環抓取. 假設我們有兩個網頁,這個網頁有那個網頁的URL鏈接,那個又有這個URL鏈接,這樣就來回循環,形成死循環.所以我們要杜絕這樣的事情發生. 步驟: 添加新URL到待抓取集合中—-判斷待添加URL是否在容器中. 獲取待抓取URL—-URL管理器判斷是否還有待抓取URL,如果已抓取那就將URL移動到已抓取. URL管理器
相關文章
相關標籤/搜索