開發一款開源爬蟲框架系列(五):爬蟲架構的一些新思路

   爬蟲開源項目地址:http://git.oschina.net/coliza/MongooCrawlergit 之前的思路是由客戶端完成全部的下載網頁,解析等功能,服務器端負責從內存隊列中拿到數據並將獲取的對象輸出到存儲層。如今發現一個很麻煩的問題,不一樣的網站須要定製不一樣的抓取策略,若是部署爬蟲集羣,那麼假如我服務器 要修改解析策略或存儲策略,客戶端或者服務器只能重寫、編譯、部署,並且服
相關文章
相關標籤/搜索