爬蟲系統的設計

爬蟲系統的組成部分 爬蟲的組件 下載任務 解析任務 檢測任務 調度中心 任務隊列 數據倉庫 代理任務 從上面的圖片中可以清晰的看出整個爬蟲系統 在單機的狀態是如何工作的,其實整個系統看起來就是消費者和生產者的關係,所以需要一個裝載任務的容器,那麼這個容器要有基本的要求:斷點續傳,能夠在項目意外暫停的時候,保存未消費的任務狀態,記錄已經消費的任務狀態,這樣當項目重啓的時候,能夠加載未消費的任務然後繼
相關文章
相關標籤/搜索