Python進行數據爬取

1.基本的爬蟲架構 主要包括調度器,URL管理器,網頁下載器,網頁解析器這些部分,實現價值數據的獲取。 1.1 URL管理器       對待抓取的URL集合和已抓取的URL集合進行管理,避免重複抓取和循環抓取。       主要有5個部分的功能,判斷待添加URL是否在容器中、添加新的URL到待爬取集合、判斷是否還有待爬取集合、獲取待爬取URL、將URL從待爬取的集合移動到已爬取集合中。    
相關文章
相關標籤/搜索