網絡爬蟲系統

爬蟲系統有5個組件構成:ide

Spider 爬蟲總體控制下載

下載器請求

網頁處理器系統

處理管線

調度器

整個流程,向調度器加入初始請求-》下載器下載對應網頁-》分析器,獲取網頁上的連接,以及網頁內容-》處理管線將分析到的有效內容保存下來

相關文章
相關標籤/搜索