爬蟲框架簡介

學習任務 URL管理器 概      念 : 管理待抓取URL集合和已抓取URL集合 網頁下載器 概        念:將互聯網上URL對應的網頁下載到本地的工具,是爬蟲的  核心組件。 網頁解析器   概念:    一方面會解析出有價值的數據,另一方面,由於每一個頁面都 有很多指向其它頁面的網頁,這些URL被解析出來之後,可以 補充進URL管理器。 爬蟲流程圖
相關文章
相關標籤/搜索