分佈式爬蟲的設計與實現

分佈式爬蟲的設計與實現css 基本環境 linux操做系統、pycharm集成開發環境 主要功能 設計並實現一種基於「C/S」結構的爬蟲,在併發爬取的狀況下實現對大規模網頁的爬取,並提取出網頁的相關信息。 關鍵技術 python、mongodb、廣度優先與深度控制 系統結構 實現方案 Mongodb數據庫中用於存放url對應的記錄,每條記錄格式爲: { 「_id」:url, 「state」:OUT
相關文章
相關標籤/搜索