Node.js 爬蟲，自動化抓取文章標題和正文

時間 2019-11-11

標籤 node.js node 爬蟲自動化抓取文章標題正文欄目 Node.js 简体版

原文原文鏈接

持續進行中。。。git

目標：github

動態User-Agent模擬瀏覽器 √
支持Proxy設置，避免被服務器端拒絕 √
支持多核模式，發揮多核CPU性能 √
支持核內併發模式 √
自動解碼非英文站點，避免亂碼出現 √
自動隊列管理，持續化PUSH √
自動抓取文章標題和正文 √
性能優化
測試用例，自動化測試

個人測試環境：centos

9 檯安裝 ElasticSearch 1.3.2 的 centos，48G內存，8核
3 臺 Node.js v0.11.14 的 centos，16G內存，8核，用做爬蟲
3 臺 NSQD 服務器，用做爬蟲解耦後的數據訂閱和發送，與爬蟲共用，其中 1 臺部署 NSQ Lookupd
國內主要門戶的站點管理，使用Kue，連接，正文之間的傳遞採用NSQ

結果：瀏覽器

日均數據 50W 左右

開源地址：https://github.com/Tjatse/spider2性能優化

相關文章

相關標籤/搜索

爬蟲－反爬蟲

自動化專題

測試自動化

XLink 和 XPointer 教程

代碼格式化

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公眾號

歡迎關注本站公眾號,獲取更多信息

相關文章

>>更多相關文章<<