通用爬蟲和聚焦爬蟲

  通用爬蟲是搜索引擎抓取系統 (baidu,goole,yahoo等)的重要組成部分 。 主要目的是將互聯網的網頁下載到本地 ,形成一個互聯網內容的鏡像備份。 搜索引擎網絡爬蟲的基本工作流程如下: 第一步 :抓取網頁  1,首先選取一部分的種子url,並將這些url放進抓取url隊列 。 2,取出待抓取url,解析dns得到主機的ip,並將Url對應的網頁下載下來 存儲進已下載網頁庫中 ,並且將
相關文章
相關標籤/搜索