爬蟲平臺Crawlab v0.2.2發佈

Crawlab是一個專一於爬蟲的集成了爬蟲管理、任務調度、任務監控、數據分析等模塊的分佈式爬蟲管理平臺,很是適合對爬蟲管理、爬蟲工程化有要求的開發者及企業。git

對Crawlab還不瞭解的童鞋,請移步以前的文章:github

分佈式調度系統

Crawlab的任務調度核心模塊基於Celery,所以自然支持分佈式爬蟲、多節點抓取。微信

自定義爬蟲

Crawlab的自定義爬蟲可兼容任何語言以及任何框架。從目前開源的框架來看,大部分爬蟲平臺是以scrapyd爲核心,所以只能支持scrapy框架的爬蟲,而Crawlab不只支持scrapy,還支持其餘框架的爬蟲。框架

可配置爬蟲

Crawlab在版本v0.2.1中新增了可配置爬蟲功能,用戶經過配置爬蟲的抓取規則,不用寫任何代碼,就能夠在1-3分鐘內開發好一個集下載、解析、存儲一體的常規爬蟲。scrapy

自動提取匹配規則

v0.2.2中,加入了自動提取列表字段規則,讓用戶可以一鍵提取匹配的列表字段,開發時間進一步下降到半分鐘之內。所以Crawlab正在朝真正的「一鍵抓取」的目標邁進。分佈式

更新一覽

v0.2.2

  • 自動提取匹配規則
  • 下載抓取結果

v0.2.1

  • 可配置爬蟲
  • 網站列表

v0.2

  • 基礎統計
  • 數據分析(爬蟲)
  • 網站信息
  • 定時任務

待開發

  • 用戶管理
  • 上傳爬蟲
  • 下載爬蟲
  • 可配置爬蟲支持動態內容
  • 異常監控
  • 更多爬蟲例子
  • 文件管理
  • 日誌管理
  • 部署系統優化

截屏

可配置爬蟲(添加)

可配置爬蟲(配置)

可配置爬蟲(預覽)

網站列表

Github: tikazyq/crawlabpost

若是您以爲Crawlab對您的平常開發或公司有幫助,請加做者微信拉入開發交流羣,你們一塊兒交流關於Crawlab的使用和開發。優化

相關文章
相關標籤/搜索