Java爬蟲框架(一)--架構設計

一、        架構圖 那裏搜網絡爬蟲框架主要針對電子商務網站進行數據爬取,分析,存儲,索引。   爬蟲:爬蟲負責爬取,解析,處理電子商務網站的網頁的內容 數據庫:存儲商品信息 索引:商品的全文搜索索引 Task隊列:需要爬取的網頁列表 Visited表:已經爬取過的網頁列表 爬蟲監控平臺:web平臺可以啓動,停止爬蟲,管理爬蟲,task隊列,visited表。 二、        爬蟲 1.
相關文章
相關標籤/搜索