分佈式多爬蟲系統——架構設計

前言: 在爬蟲的開發過程當中,有些業務場景須要同時抓取幾百個甚至上千個網站,此時就須要一個支持多爬蟲的框架。在設計時應該要注意如下幾點:web 代碼複用,功能模塊化。若是針對每一個網站都寫一個完整的爬蟲,那其中一定包含了許多重複的工做,不只開發效率不高,並且到後期整個爬蟲項目會變得臃腫、難以管理。 易擴展。多爬蟲框架,這最直觀的需求就是方便擴展,新增一個待爬的目標網站,我只須要寫少許 必要的內容(
相關文章
相關標籤/搜索