爬蟲系統有5個組件構成:ide
Spider 爬蟲總體控制下載
下載器請求
網頁處理器系統
處理管線
調度器
整個流程,向調度器加入初始請求-》下載器下載對應網頁-》分析器,獲取網頁上的連接,以及網頁內容-》處理管線將分析到的有效內容保存下來