用python進行分佈式網頁數據抓取(一)——設計

這幾天做一個小項目,分給我的模塊是對於BOKECC體系網站的抓取。 從來沒有用過python,這次來嘗一下鮮,感覺還行~ BOKECC就是一個視頻網站的解決方案,我的任務很簡單,就是給定一個網址,我來抓取對應頁面上的數據內容。 整個系統採用分佈式架構,我來負責做爬蟲節點。 簡單來說就是整個系統可分佈式部署,每個節點接收來自控制者的遠程調用,獨立完成任務,並向上級彙報完成情況。 這裏採用暴露WebS
相關文章
相關標籤/搜索