字節跳動開源雲原生機器學習平臺 Klever

SegmentFault 思否消息,字節跳動技術團隊官方微信公衆號發佈消息稱:「字節跳動基礎架構團隊基於火山引擎機器學習平臺 Clever 及其豐富的行業落地經驗,推出開源項目 Klever,以工程化的方式下降智能技術落地門檻,助力企業快速打造智能業務。」前端

項目地址 : https://github.com/kleverossgit


Klever 是一個支持 OCI(Open Container Initiative)標準存儲訓練模型、支持在線模型服務部署的雲原生機器學習平臺。算法科學家能夠使用 Klever 進行模型管理模型解析模型轉換模型服務,它已經解決了智能技術落地流程中的以下問題:github

  • 模型的管理和分發
  • 模型解析和轉換
  • 在線模型服務部署和管理

同時,基於字節跳動在機器學習和雲原生開源社區的技術積累,Klever 提供強大、通用的開源技術標準,方便企業無縫遷移線上應用。web

換句話說 Klever 的主要功能是解決 ,算法技術選型到模型最終上線過程當中涉及到的大量工程化任務對接,從而解放算法工程師的「雙手」,讓他們能夠聚焦在算法模型上,沒必要爲大量繁瑣的配置工做浪費時間。算法

如今,在字節跳動內部在基於各種實踐完善雲原生機器學習工程化平臺的構建想法,豐富 Klever 的功能和內涵。在外部市場,火山引擎推出的商業化版機器學習平臺 Clever 已在金融、製造、零售、能源等行業擁有成熟的解決方案。微信

Klever 的概述

系統架構

Klever 有四個自研發的組件,並依賴三個開源組件:架構

  • ormb:模型打包、解壓、上傳、下載工具
  • model-registry:模型倉庫及模型服務 API 管理層
  • modeljob-operator:ModelJob controller,管理模型解析、模型轉換任務
  • klever-web:前端組件
  • Istio:開源服務網格組件,模型服務經過 Istio 對外暴露模型服務地址,實現模型服務按內容分流和按比例分流
  • Harbor:模型底層存儲組件,對模型配置和模型文件進行分層存儲
  • Seldon Core:開源模型服務管理的 Seldon Deployment CRD 的 controller,經過 SeldonDeployment CR 實現模型服務的管理

CI 標準的模型倉庫管理,用戶能夠像使用 Docker 管理鏡像同樣管理機器學習模型。機器學習

其次,整個系統可經過容器化的方式部署在 Kubernetes 容器管理平臺之上,用戶無需管理模型解析、模型轉換、模型服務實際運行在哪臺物理機之上,系統會自動調度和運行資源充足的機器,並在模型服務負載較高時自動彈性伸縮。工具

最後,因爲機器學習在不一樣訓練過程當中每每使用不一樣的數據集,會產生不一樣的模型,Klever 支持多種模型服務運行時,可將產生的模型用於提供生產環境可用的在線服務。學習

image.png

相關文章
相關標籤/搜索