爬蟲筆記一

一、根據使用場景,網絡爬蟲可分爲 通用爬蟲 和 聚焦爬蟲 兩種. 通用爬蟲   通用網絡爬蟲 是 捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。 聚焦爬蟲   聚焦爬蟲,是"面向特定主題需求"的一種網絡爬蟲程序,它與通用搜索引擎爬蟲的區別在於: 聚焦爬蟲在實施網頁抓取時會對內容進行處理篩選,儘量保證只抓
相關文章
相關標籤/搜索