實現簡單分佈式爬蟲

時間 2019-12-07

原文原文鏈接

實驗目的 1.從一個給定的網址中分析其所包含的 URL 並爬取對應的網頁，直到爬取徹底部html 不重複的網頁爲止。python 2.支持分佈式爬取，同時記錄輸出每個網頁的大小。redis 3.採用多線程結構設計，實現高性能的網絡爬蟲。json 實驗環境 Windows10+python3.6+celery+redis3.2+redis Desktop Managerwindows 實驗內容

>>阅读原文<<