爬蟲+Python_抻透

1、爬蟲架構: 2、運行流程: 3、URL管理器 3.1 功能 1)將新URL添加到爬取列表 2)判斷是否重複 3)獲取待爬取URL 4)判斷是否有待爬取內容 5)將URL從待爬取到已爬取 3.2 實現方式 1)內存:set() 方法 2)關係數據庫 3)緩存數據庫redis:set 4、網頁下載器 4.1 功能 將互聯網的URL解析成HTML文件,存儲到本地文件或內存字符串 4.2 基本插件 P
相關文章
相關標籤/搜索