通用爬蟲和聚焦爬蟲

時間 2021-01-10

原文原文鏈接

通用爬蟲是搜索引擎抓取系統（baidu,goole,yahoo等）的重要組成部分。主要目的是將互聯網的網頁下載到本地，形成一個互聯網內容的鏡像備份。搜索引擎網絡爬蟲的基本工作流程如下：第一步：抓取網頁 1，首先選取一部分的種子url，並將這些url放進抓取url隊列。 2，取出待抓取url，解析dns得到主機的ip，並將Url對應的網頁下載下來存儲進已下載網頁庫中，並且將

>>阅读原文<<