Python之分佈式爬蟲

什麼是分佈式爬蟲? 通俗來講,分佈式爬蟲就是多臺機器多個spider對多個url的同時處理操作,分佈式的方式可以極大提高程序的抓取效率   分佈式爬蟲一般要配合redis數據庫使用,原因有3點: (1)redis數據庫可以共享隊列 (2)重寫Scheduler,讓其無論是去重還是任務都去訪問共享隊列 (3)爲Scheduler定製去重規則 redis數據庫的安裝和使用見下文   分佈式爬蟲的結構:
相關文章
相關標籤/搜索