Python網絡爬蟲 (二) urllib2

1.網絡爬蟲的架構 :    2.URL管理器的簡單實現 : (1)存放待爬取URL的 set 集合. (2)存放未爬取URL的  set 集合. (3)URL管理器應該具有的方法 :   添加新的URL,    判斷添加的URL是否存在,   判斷是否存在待爬取的URL,   獲取待爬取的URL,   移動爬取完成的URL由未爬取 set 集合至  已爬取 set 集合. 3.網頁下載器的三種實
相關文章
相關標籤/搜索