開發一款開源爬蟲框架系列（五）：爬蟲架構的一些新思路

時間 2019-12-07

原文原文鏈接

爬蟲開源項目地址：http://git.oschina.net/coliza/MongooCrawlergit 之前的思路是由客戶端完成全部的下載網頁，解析等功能，服務器端負責從內存隊列中拿到數據並將獲取的對象輸出到存儲層。如今發現一個很麻煩的問題，不一樣的網站須要定製不一樣的抓取策略，若是部署爬蟲集羣，那麼假如我服務器要修改解析策略或存儲策略，客戶端或者服務器只能重寫、編譯、部署，並且服

>>阅读原文<<