基於Kubernetes搭建機器學習系統,將能夠利用大型集羣管理和微服務架構實現大規模、生產級的訓練、研究和應用機器學習系統,Nvidia的 HGX超級機器學習平臺 也基於該架構,具備強大的運算和IO能力。前端
機器學習系統包括訓練框架、機器學習計算引擎、樣本數據庫、計算模型庫、超級參數庫、應用框架和移動應用(包括引擎、框架和參數庫調優等)等部分。爲了生產級的應用,還須要具備有配置參數及其版本化的管理,樣本數據庫、超級參數和環境配置參數每每存儲在虛擬存儲系統上(如NFS/Rook),以實現多個節點的並行處理訪問所需。docker
本文將包含基於Kubernetes的機器學習系統相關參考資源,包括基於Ubuntu的Nvidia圖形驅動驅動、cuDNN深度學習引擎、Nvidia Docker二、Nvidia Plugin for Kubernetes、Kubeflow、Spark ML等安裝和配置方法。數據庫
在機器學習平臺中,後端主要用於訓練和大型分析、在線服務,而前端經過低功耗的專用芯片實現模型的應用,如自動駕駛、圖像分類、視頻理解、人臉識別、語音合成、視覺定位等等,有基於ASIC、FPGA、DSP、ARM的專用芯片和多種方案,體積和功耗都是比較低的,能夠在包括手機上的移動設備上運行。後端