簡單爬蟲學習

簡單爬蟲 項目流程: 1、確定爬取目標;入口地址,頁面元素的審查元素地址,是否完整,(不完整就需要拼接) 2、分析爬取目標:url格式;數據格式;網頁編碼; 3、編寫代碼; 4、運行代碼; 爬蟲的架構: 1、爬蟲調度器; 2、url管理器; 3、網頁解析器; 4、網頁下載器; 爬蟲調度器: url管理器: 功能:實現url的新增,查找,刪除,更新這些功能。 實現方式: 1、set():將待爬取和已
相關文章
相關標籤/搜索