《這就是搜索引擎》爬蟲部分摘抄總結

《這就是搜索引擎》這本書的第二章是關於爬蟲的,乾貨很多(文章幾乎沒有廢話,所以複製居多),可以參考搜索引擎是如何構建爬蟲系統的。 1 通用爬蟲框架 首先從互聯網頁面中精心選擇一部分網頁,以這些網頁的鏈接地址作爲種子URL,將這些種子URL放入待抓取URL隊列中,爬蟲從待抓取URL隊列依次讀取,並將URL通過DNS解析,把鏈接地址轉換爲網站服務器對應的IP地址。然後將其和網頁相對路徑名稱交給網頁下載
相關文章
相關標籤/搜索