分佈式爬蟲架構設計

分佈式爬蟲架構設計 最近又和爬蟲幹上了,有3000萬個搜索關鍵詞,1個關鍵詞搜索結果有多個,每個結果對應一個ID,每個ID的對應的目標頁面由多個請求接口返回的json組合而成。 1.在架構上使用kafka分發搜索關鍵詞,利用了kafka同一消費組只消費一次的特性。 2.利用redis進行id去重。 3.在擴展性上利用kafka的consumer balance,實現爬蟲進程的可以隨時增加減少(當然
相關文章
相關標籤/搜索