1.通用爬蟲框架 網絡
![](http://static.javashuo.com/static/loading.gif)
2.優秀爬蟲的特性
多進程、多線程爬蟲,優化待抓取、已抓取URL隊列
分佈式爬蟲、增長併發性
可以處理各類異常狀況、可以異常恢復
遵循爬蟲協議、robots.txt,不給待抓取網站服務器形成很大的負擔
3.爬蟲質量的評價標準
抓取網頁覆蓋率、抓取網頁時新性、抓取網頁重要性
4.爬蟲抓取策略
寬度優先遍歷策略
非徹底pagerank策略
OPIC(online page importance computation,在線頁面重要性計算)
大站優先策略
5.網頁更新策略
歷史參考策略:參考網頁的歷史更新頻率,以泊松分佈建模
用戶體驗策略:按照網頁對於用戶體驗的影響來決定什麼時候更新網頁
聚類抽樣策略:將不一樣的網頁進行聚類,同一個類別的網頁更新方式相同,每一個類別進行抽樣計算類別的平均更新頻率
6.暗網抓取
非web,非結構化的數據抓取
google 富含信息查詢模板
給定種子查詢關鍵詞列表,而後從返回的數據中提取出更多的關鍵詞,而後迭代查詢
7. 分佈式爬蟲
分佈式數據中心、分佈式抓取服務器、分佈式爬蟲程序
對主域名進行hash計算,而後對應分配到不一樣的服務器進行抓取
改進:採用一致性hash算法,將不一樣的服務器組成一個環,將主域名映射到[0,2^32]的某個數值,實現了能夠方便進行服務器的擴展,以及某臺服務器宕機了能夠直接將url分發到其後的服務器,大大加強了可擴展性。