crawler_爬蟲開發的曲線圖

時間 2019-12-11

標籤 crawler 爬蟲開發曲線圖欄目網絡爬蟲简体版

原文原文鏈接

我的總結爬蟲的學習曲線，可分爲三個階段， html

1、 java

主要在填充基礎知識，要熟悉http協議，學習正則表達式，首先基於jdk的基礎包的網絡功能，.net包下的 httpurlconnction 正則表達式

從細節上簡單訪問網絡數據，進一步能夠減去一些繁瑣的封裝功能（請求參數），使用httpClient (4.2.1)版本，處理的登陸網絡

頁面解析能夠藉助regex ,jsoup ,htmlparser ,建議使用正則（要求較高），數據的鎖向性準確，性能高。架構

2、負載均衡

融入架構的思想，考慮爬取性能，爬取道德，站點處理能力，設計實現分佈式爬蟲，異步下載，負載均衡。異步

我的正在處在第二階段分佈式

三、性能

通過階段二，通常商用爬蟲都能應對，若打算進一步提升，java的垃圾回收，內存釋放，註定性能比不上c,學習

可根據我的興趣，用c重寫。

不盡之處，歡迎溝通與交流，共同進步。

爬蟲技術交流_crawler QQ羣：167047843

相關標籤/搜索