分佈式爬蟲(一)------------------分佈式爬蟲概述

分佈式爬蟲概述


什麼是分佈式爬蟲:

     多個爬蟲分佈在不一樣的服務器上,經過狀態管理器進行統一調度,達到像URL去重等功能的爬蟲系統數據庫

  

分佈式爬蟲的優勢

  1) 充分利用多臺機器的寬帶加速服務器

  2)充分利用多機器的IP加速爬取速度架構

 

Scrapy分佈式爬蟲原理

    單機Scrapy爬蟲架構

  

分佈式爬蟲須要改進的Scrapy

    1)requests隊列集中管理(在架構圖中SCHEDULER中管理)

    2)URL去重集中管理  

    解決方法:分佈式

      requests隊列存儲在單機的內存當中,URL去重原理也是存儲在內存當中的Set()集合中,解決這兩個問題,blog

    能夠將這個隊列和集合存儲在數據庫中,進行統一的資源管理。隊列

      在選擇數據庫時推薦使用Redis數據庫,它是一個基於內存的數據庫,將Requests隊列和URL集合存儲在內存,避免數據落地,提升效率內存

相關文章
相關標籤/搜索