持續進行中。。。git
目標:github
- 動態User-Agent模擬瀏覽器 √
- 支持Proxy設置,避免被服務器端拒絕 √
- 支持多核模式,發揮多核CPU性能 √
- 支持核內併發模式 √
- 自動解碼非英文站點,避免亂碼出現 √
- 自動隊列管理,持續化PUSH √
- 自動抓取文章標題和正文 √
- 性能優化
- 測試用例,自動化測試
個人測試環境:centos
- 9 檯安裝 ElasticSearch 1.3.2 的 centos,48G內存,8核
- 3 臺 Node.js v0.11.14 的 centos,16G內存,8核,用做爬蟲
- 3 臺 NSQD 服務器, 用做爬蟲解耦後的數據訂閱和發送,與爬蟲共用, 其中 1 臺部署 NSQ Lookupd
- 國內主要門戶的站點管理,使用Kue,連接,正文之間的傳遞採用NSQ
結果:瀏覽器
開源地址:https://github.com/Tjatse/spider2性能優化