《這就是搜索引擎》爬蟲部分摘抄總結

時間 2021-01-04

原文原文鏈接

《這就是搜索引擎》這本書的第二章是關於爬蟲的，乾貨很多（文章幾乎沒有廢話，所以複製居多），可以參考搜索引擎是如何構建爬蟲系統的。 1 通用爬蟲框架首先從互聯網頁面中精心選擇一部分網頁，以這些網頁的鏈接地址作爲種子URL，將這些種子URL放入待抓取URL隊列中，爬蟲從待抓取URL隊列依次讀取，並將URL通過DNS解析，把鏈接地址轉換爲網站服務器對應的IP地址。然後將其和網頁相對路徑名稱交給網頁下載