一個小型的網頁抓取系統的架構設計

一個小型的網頁抓取系統的架構設計              網頁抓取服務是互聯網中的經常使用服務。在搜索引擎中spider(網頁抓取爬蟲)是必需的核心服務。搜索引擎的衡量指標「多、快、準、新」四個指標中,多、快、新都是對spider的要求。搜索引擎公司比方google、baidu都維護者自己負責的spider系統。 當然他們的系統非常複雜,在這裏我們介紹一個小型的網頁抓取系統的架構,目標是高速的抓
相關文章
相關標籤/搜索