通用爬蟲和聚焦爬蟲的區別

根據使用場景網絡爬蟲可分爲通用爬蟲和聚焦爬蟲兩種。 1 通用爬蟲 通用網絡爬蟲是捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互聯網內容的鏡像備份。 1.1 目標 把互聯網上所有的網頁下載下來,放到本地服務器裏形成備份,再對這些網頁做相關處理(提取關鍵字、去掉廣告),最後提供一個用戶檢索接口。 通用爬蟲工作流程:爬取網頁–存
相關文章
相關標籤/搜索