Node.js 爬蟲,自動化抓取文章標題和正文

持續進行中。。。git

目標:github

  • 動態User-Agent模擬瀏覽器
  • 支持Proxy設置,避免被服務器端拒絕 
  • 支持多核模式,發揮多核CPU性能
  • 支持核內併發模式
  • 自動解碼非英文站點,避免亂碼出現
  • 自動隊列管理,持續化PUSH
  • 自動抓取文章標題和正文 
  • 性能優化
  • 測試用例,自動化測試

個人測試環境:centos

  • 9 檯安裝 ElasticSearch 1.3.2 的 centos,48G內存,8核
  • 3 臺 Node.js v0.11.14 的 centos,16G內存,8核,用做爬蟲
  • 3 臺 NSQD 服務器, 用做爬蟲解耦後的數據訂閱和發送,與爬蟲共用, 其中 1 臺部署 NSQ Lookupd
  • 國內主要門戶的站點管理,使用Kue,連接,正文之間的傳遞採用NSQ

結果:瀏覽器

  • 日均數據 50W 左右

 

開源地址:https://github.com/Tjatse/spider2性能優化

相關文章
相關標籤/搜索