網絡爬蟲

網絡爬蟲 通用爬蟲技術框架     爬蟲系統首先從互聯網頁面中精心選擇一部分網頁,以這些網頁的鏈接地址作爲種子URL,將這些種子放入待爬取URL隊列中,爬蟲從待爬取URL隊列依次讀取,並將URL通過DNS解析,把鏈接地址轉換爲網站服務器對應的IP地址。然後將其和網頁相對路徑名交給網頁下載器,網頁下載器負責頁面的下載。對於下載到本地的頁面,一方面將其存儲到頁面庫中,等待建立索引等後續處理;另一方面將
相關文章
相關標籤/搜索