crawler_爬蟲開發的曲線圖

我的總結爬蟲的學習曲線,可分爲三個階段, html

1、 java

    主要在填充基礎知識,要熟悉http協議,學習正則表達式,首先基於jdk的基礎包的網絡功能,.net包下的  httpurlconnction 正則表達式

從細節上簡單訪問網絡數據,進一步能夠減去一些繁瑣的封裝功能(請求參數),使用httpClient (4.2.1)版本,處理的登陸網絡

頁面解析能夠藉助regex ,jsoup ,htmlparser ,建議使用正則(要求較高),數據的鎖向性準確,性能高。架構

2、負載均衡

    融入架構的思想,考慮爬取性能,爬取道德,站點處理能力,設計實現分佈式爬蟲,異步下載,負載均衡。異步

我的正在處在第二階段分佈式

三 、性能

    通過階段二,通常商用爬蟲都能應對,若打算進一步提升,java的垃圾回收,內存釋放,註定性能比不上c,學習

可根據我的興趣,用c重寫。

不盡之處,歡迎溝通與交流 ,共同進步。

爬蟲技術交流_crawler  QQ羣 :167047843

相關文章
相關標籤/搜索