我的總結爬蟲的學習曲線,可分爲三個階段, html
1、 java
主要在填充基礎知識,要熟悉http協議,學習正則表達式,首先基於jdk的基礎包的網絡功能,.net包下的 httpurlconnction 正則表達式
從細節上簡單訪問網絡數據,進一步能夠減去一些繁瑣的封裝功能(請求參數),使用httpClient (4.2.1)版本,處理的登陸網絡
頁面解析能夠藉助regex ,jsoup ,htmlparser ,建議使用正則(要求較高),數據的鎖向性準確,性能高。架構
2、負載均衡
融入架構的思想,考慮爬取性能,爬取道德,站點處理能力,設計實現分佈式爬蟲,異步下載,負載均衡。異步
我的正在處在第二階段分佈式
三 、性能
通過階段二,通常商用爬蟲都能應對,若打算進一步提升,java的垃圾回收,內存釋放,註定性能比不上c,學習
可根據我的興趣,用c重寫。
不盡之處,歡迎溝通與交流 ,共同進步。
爬蟲技術交流_crawler QQ羣 :167047843