基於PyHusky的分佈式爬蟲原理及實現

時間 2019-12-07

原文原文鏈接

原理爬蟲是咱們獲取互聯網數據的一個很是有效的方法，而分佈式爬蟲則是利用許多臺機器協調工做來加快抓取數據效率的不二途徑。分佈式爬蟲是由訪問某些原始網址開始，在獲取這些網址的內容後，根據某些規則從中提取出下一輪的爬蟲網址。依此類推，直到將所有連接訪問完畢或達到咱們設置的某些限定方可結束。這裏咱們須要選定一個運算效率較高的機器做爲master, 和一羣正常的workers來協助。這個master要負責

>>阅读原文<<