設計完善的機器學習平臺長什麼樣算法
一個設計完善的機器學習平臺能夠在 AI 應用全生命週期的開發和管理過程起到做用。具體而言,設計完善的機器學習平臺具有 6 大能力:markdown
統一的存儲空間,支持多數據源導入;框架
Pipeline 可視化工做流管理與執行,支持數據科學家從數據建模階段開始的可視化管理,節省成本,快速體現數據科學家的價值;運維
基於容器的計算資源分配和軟件庫安裝,支持 TensorFlow、PyTorch 等各類框架;機器學習
支持 GPU、TPU、CPU 框架和異構計算硬件和框架;分佈式
模型管理,支持新手快速上手,無需經過本身實現原始算法,只須要理解算法原理就能夠經過調參實現;工具
AI Serving,模型一鍵封裝爲 API,一鍵部署。oop
相對重要的部分是數據接入、開發環境、分佈式訓練以及模型管理,其餘環節均可以慢慢加進來,但這 4 個是基礎組件。學習
數據接入,數據是一切得以實現的前提。最簡單的方式是經過上傳來解決。企業內部每每會基於大數據平臺,經過數據導入等方式接入。或者經過數據映射的方式,數據不須要導入,直接就能夠經過外部訪問;測試
開發環境,數據科學家基本對此達成了共識,都會選擇相似 Jupyter 這樣的工具;
分佈式訓練,相似 Tensorflow、PyTorch 等都提供一些方法能夠作分佈式訓練;
模型管理,這是如今比較個性化的模塊,不一樣的公司會有不一樣的實現。明略科技的模型管理是涵蓋模型生成、模型部署以及更新迭代的全流程實現。
除了環節和流程上面的完善,一個設計良好的機器學習平臺能夠下降數據科學家和工程師之間的交流成本。在這樣一個機器學習平臺中,大部分工做均可以經過自動化的方式完成,好比數據接入、模型上線等環節,數據科學家則只須要專一算法和模型自己,其餘的工做所有經過自動化的方式實現,幾乎不須要工程師協助。至於算法的上線效果如何評估,這與業務指標強綁定。在企業內部,算法模型上線以前,指標就已經肯定好了。
注:本節摘自AI前線公衆號文章《對話明略科技:一個設計完善的機器學習平臺是什麼樣子?》
機器學習框架 Prophecis
Prophecis 是微衆銀行大數據平臺團隊開發的一站式機器學習平臺,提供多種模型訓練調試方式,集成多種開源機器學習框架,具有機器學習計算集羣的多租戶管理能力,提供生產環境全棧化容器部署與管理服務。
圖 1 Prophecis 的總體框架
Prophecis 總體框架如上圖所示,主要包含 5 個關鍵服務:
Prophecis MLFlow:機器學習分佈式建模工具,具有單機和分佈式模式模型訓練能力,支持 Tensorflow、Pytorch、xgboost 等多種機器學習框架,支持從機器學習建模到部署的完整 Pipeline;
Prophecis MLLabis:機器學習開發探索工具,提供開發探索服務,是一款基於 Jupyter Lab 的在線 IDE,同時支持 GPU 及 Hadoop集羣的機器學習建模任務,支持 Python、R、Julia 多種語言,集成 Debug、TensorBoard 多種插件;
Prophecis Model Factory:機器學習模型工廠,提供機器學習模型存儲、模型部署測試、模型管理等服務;
Prophecis Data Factory:機器學習數據工廠,提供特徵工程工具、數據標註工具和物料管理等服務;
Prophecis Application Factory:機器學習應用工廠,由微衆銀行大數據平臺團隊和 AI 部門聯合共建,基於 Kubesphere 定製開發,提供 CI/CD 和 DevOps 工具,GPU 集羣的監控及告警能力。
Prophecis 的功能特點
圖 2 Prophecis 機器學習模型生命週期
Prophecis 與當前已開源的的機器學習平臺相比主要有以下特色:
全生命週期的機器學習體驗:Prophecis 的 MLFlow 經過 AppJoint 能夠接入到 DataSphere Stdudio 的工做流中,支持從數據上傳、數據預處理、特徵工程、模型訓練、模型評估到模型發佈的機器學習全流程;
一鍵式的模型部署服務:Prophecis MF 支持將 Prophecis MLFlow、Prophecis MLLabis 生成的訓練模型一鍵式發佈爲 Restful API 或者 RPC 接口,實現模型到業務的無縫銜接;
機器學習應用部署、運維、實驗的綜合管理平臺:基於社區開源方案定製,提供完整的、可靠的、高度靈活的企業級機器學習應用發佈、監控、服務治理、日誌收集和查詢等管理工具,全方位實現對機器學習應用的管控,知足企業對於機器學習應用在線上生產環境的全部工做要求。
Prophecis 的核心組件主要是基於開源技術構建,從開源中來到開源中去,咱們計劃在近期完成 Prophecis 的開源,但願與社區龐大的開源愛好者們一塊兒共建一個更加完備和成熟的工業級機器學習平臺。