記一個簡單的增量式爬蟲方案

最近在玩爬蟲,於是基於以下需求場景設計了一個簡單並且驗證可用的增量式爬蟲方案。 場景 需要爬取多個同類型的網站數據 網站數據持續、不定期更新 數據量不太大,每日更新幾千 獲取到的數據可以用來玩(數據分析等等),嘿嘿 對於這種類型的需求,先捋捋需要考慮的問題: 數據如何去重 怎樣的存儲方案 我的設計方案 如圖: 爬蟲通過一個定時任務以多線程啓動,爬取的數據直接放入消息隊列等待下一步處理 第二個定時任
相關文章
相關標籤/搜索