爬蟲管理平臺Crawlab v0.3.1發佈(Docker鏡像優化)

Crawlab是基於Golang的分佈式爬蟲管理平臺,支持Python、NodeJS、Java、Go、PHP等多種編程語言以及多種爬蟲框架。前端

項目自今年三月份上線以來受到爬蟲愛好者們和開發者們的好評,很多使用者還表示會用Crawlab搭建公司的爬蟲平臺。如今Github上已經有2k stars,Dockerhub上有1.4k pulls。通過近數月的迭代,咱們陸續上線了定時任務、數據分析、可配置爬蟲、自動提取字段、下載結果、上傳爬蟲、Docker部署等功能,將Crawlab打造得更加實用,更加全面,可以真正幫助用戶解決爬蟲管理困難的問題。git

Crawlab主要解決的是大量爬蟲管理困難的問題,例如須要監控上百個網站的參雜scrapyselenium的項目不容易作到同時管理,並且命令行管理的成本很是高,還容易出錯。Crawlab支持任何語言和任何框架,配合任務調度、任務監控,很容易作到對成規模的爬蟲項目進行有效監控管理。github

更新內容

本次更新v0.3.1是一次優化更新,主要針對Docker鏡像的優化、前端優化、以及一些Bug修復。docker

更新內容以下:編程

功能 / 優化

  • Docker鏡像優化:將Docker鏡像進一步分離成master、worker、frontend以增強生產環境支持,並用alpine鏡像減小體積
  • 單元測試:用單元測試用例覆蓋部分後端Golang代碼
  • 前端優化:登陸頁、按鈕大小、提示等UI優化
  • 更靈活的節點註冊:容許用戶傳一個變量來區分節點,默認是用MAC地址(對於須要多機器部署的用戶,能夠查看這個功能)

Bug修復

  • 上傳大爬蟲文件出錯:上傳大爬蟲文件會引發內存溢出. #150
  • 沒法同步爬蟲文件:增長寫權限繞開權限不夠致使同步爬蟲失敗的問題. #114
  • 爬蟲頁面問題:移除爬蟲頁面「網站」這個字段來修復. #112
  • 節點展現問題:當多機器用docker運行節點時,只顯示一個節點的問題,經過傳變量做爲標示符來解決. #99

接下來的計劃

  • 可配置爬蟲
  • 日誌集中管理
  • 異常監控報警
  • RBAC權限控制
  • JWT權限驗證優化
  • 界面安裝第三方包

咱們正在計劃接下來的安排,包括各個任務的優先級、如何實現等等。若是有朋友對相關功能或其餘功能感興趣,請在Github Issues提出來,或者加做者微信tikazyq1告訴咱們。後端

社區

若是您以爲Crawlab對您的平常開發或公司有幫助,請加做者微信 tikazyq1 並註明"Crawlab",做者會將你拉入羣。歡迎在Github上進行star,以及,若是遇到任何問題,請隨時在Github上提issue。另外,歡迎您對Crawlab作開發貢獻。微信

相關文章
相關標籤/搜索