多個爬蟲分佈在不一樣的服務器上,經過狀態管理器進行統一調度,達到像URL去重等功能的爬蟲系統數據庫
1) 充分利用多臺機器的寬帶加速服務器
2)充分利用多機器的IP加速爬取速度架構
解決方法:分佈式
requests隊列存儲在單機的內存當中,URL去重原理也是存儲在內存當中的Set()集合中,解決這兩個問題,blog
能夠將這個隊列和集合存儲在數據庫中,進行統一的資源管理。隊列
在選擇數據庫時推薦使用Redis數據庫,它是一個基於內存的數據庫,將Requests隊列和URL集合存儲在內存,避免數據落地,提升效率內存