解鎖雲原生 AI 技能|在 Kubernetes 上構建機器學習系統

本系列將利用阿里雲容器服務,幫助您上手 Kubeflow Pipelines.html

介紹

機器學習的工程複雜度,除了來自於常見的軟件開發問題外,還和機器學習數據驅動的特色相關。而這就帶來了其工做流程鏈路更長,數據版本失控,實驗難以跟蹤、結果難以重現,模型迭代成本巨大等一系列問題。爲了解決這些機器學習固有的問題,不少企業構建了內部機器學習平臺來管理機器學習生命週期,其中最有名的是 Google 的 Tensorflow Extended, Facebook 的 FBLearner Flow, Uber 的 Michelangelo,遺憾的是這些平臺都須要綁定在公司內部的基礎設施之上,沒法完全開源。而這些機器學習平臺的骨架就是機器學習工做流系統,它可讓數據科學家靈活定義本身的機器學習流水線,重用已有的數據處理和模型訓練能力,進而更好的管理機器學習生命週期。
node

談到機器學習工做流平臺,Google 的工程經驗很是豐富,它的 TensorFlow Extended 機器學習平臺支撐了 Google 的搜索,翻譯,視頻等核心業務;更重要的是其對機器學習領域工程效率問題的理解深入,Google 的 Kubeflow 團隊於 2018 年末開源了 Kubeflow Pipelines(KFP), KFP 的設計與 Google 內部機器學習平臺 TensorFlow Extended 一脈相承,惟一的區別是 KFP 運行在 Kubernetes 的平臺上,TFX 是運行在 Borg 之上的。mysql

什麼是 Kubeflow Pipelines

Kubeflow Pipelines 平臺包括:linux

  • 可以運行和追蹤實驗的管理控制檯
  • 可以執行多個機器學習步驟的工做流引擎 (Argo)
  • 用來自定義工做流的 SDK,目前只支持 Python

而 Kubeflow Pipelines 的目標在於:git

  • 端到端的任務編排: 支持編排和組織複雜的機器學習工做流,該工做流能夠被直接觸發,定時觸發,也能夠由事件觸發,甚至能夠實現由數據的變化觸發;
  • 簡單的實驗管理: 幫助數據科學家嘗試衆多的想法和框架,以及管理各類試驗。並實現從實驗到生產的輕鬆過渡;
  • 經過組件化方便重用: 經過重用 Pipelines 和組件快速建立端到端解決方案,無需每次從 0 開始的從新構建。

在阿里雲上運行 Kubeflow Pipelines

看到 Kubeflow Piplines 的能力,你們是否是都摩拳擦掌,想一睹爲快?可是目前國內想使用 Kubeflow Pipeline 有兩個挑戰:github

  1. Pipelines 須要經過 Kubeflow 部署;而 Kubeflow 默認組件過多,同時經過 Ksonnet 部署 Kubeflow 也是很複雜的事情;
  2. Pipelines 自己和谷歌雲平臺有深度耦合,沒法運行在其餘雲平臺上或者裸金屬服務器的環境。

爲了方便國內的用戶安裝 Kubeflow Pipelines,阿里雲容器服務團隊提供了基於 Kustomize 的 Kubeflow Pipelines 部署方案。和普通的 Kubeflow 基礎服務不一樣,Kubeflow Pipelines 須要依賴於 mysql 和 minio 這些有狀態服務,也就須要考慮如何持久化和備份數據。在本例子中,咱們藉助阿里雲 SSD 雲盤做爲數據持久化的方案,分別自動的爲 mysql 和 minio 建立 SSD 雲盤。
您能夠在阿里雲上嘗試一下單獨部署最新版本 Kubeflow Pipelines。sql

前提條件

在 Linux 和 Mac OS 環境,能夠執行數據庫

opsys=linux  # or darwin, or windows
curl -s https://api.github.com/repos/kubernetes-sigs/kustomize/releases/latest |\
  grep browser_download |\
  grep $opsys |\
  cut -d '"' -f 4 |\
  xargs curl -O -L
mv kustomize_*_${opsys}_amd64 /usr/bin/kustomize
chmod u+x /usr/bin/kustomize

在 Windows 環境,能夠下載 kustomize_2.0.3_windows_amd64.exewindows

  • 在阿里雲容器服務建立 Kubernetes 集羣, 能夠參考 文檔

部署過程

  1. 經過 ssh 訪問 Kubernetes 集羣,具體方式能夠參考文檔
  2. 下載源代碼
yum install -y git
git clone --recursive https://github.com/aliyunContainerService/kubeflow-aliyun
  1. 安全配置

3.1 配置 TLS 證書。若是沒有 TLS 證書,能夠經過下列命令生成api

yum install -y openssl
domain="pipelines.kubeflow.org"
openssl req -x509 -nodes -days 365 -newkey rsa:2048 -keyout kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.key -out kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt -subj "/CN=$domain/O=$domain"
若是您有TLS證書,請分別將私鑰和證書保存到 kubeflow-aliyun/overlays/ack-auto-clouddisk/tls.keykubeflow-aliyun/overlays/ack-auto-clouddisk/tls.crt

3.2 配置 admin 的登陸密碼

yum install -y httpd-tools
htpasswd -c kubeflow-aliyun/overlays/ack-auto-clouddisk/auth admin
New password:
Re-type new password:
Adding password for user admin
  1. 首先利用 kustomize 生成部署 yaml
cd kubeflow-aliyun/
kustomize build overlays/ack-auto-clouddisk > /tmp/ack-auto-clouddisk.yaml
  1. 查看所在的 Kubernetes 集羣節點所在的地域和可用區,而且根據其所在節點替換可用區,假設您的集羣所在可用區爲 cn-hangzhou-g, 能夠執行下列命令
sed -i.bak 's/regionid: cn-beijing/regionid: cn-hangzhou/g' \
    /tmp/ack-auto-clouddisk.yaml
sed -i.bak 's/zoneid: cn-beijing-e/zoneid: cn-hangzhou-g/g' \
    /tmp/ack-auto-clouddisk.yaml
建議您檢查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已經設置
  1. 將容器鏡像地址由 gcr.io 替換爲 registry.aliyuncs.com
sed -i.bak 's/gcr.io/registry.aliyuncs.com/g' \
    /tmp/ack-auto-clouddisk.yaml
建議您檢查一下 /tmp/ack-auto-clouddisk.yaml 修改是否已經設置
  1. 調整使用磁盤空間大小, 好比須要調整磁盤空間爲 200G
sed -i.bak 's/storage: 100Gi/storage: 200Gi/g' \
    /tmp/ack-auto-clouddisk.yaml
  1. 驗證 pipelines 的 yaml 文件
kubectl create --validate=true --dry-run=true -f /tmp/ack-auto-clouddisk.yaml
  1. 利用 kubectl 部署 pipelines
kubectl create -f /tmp/ack-auto-clouddisk.yaml
  1. 查看訪問 pipelines 的方式,咱們經過 ingress 暴露 pipelines 服務,在本例子中,訪問 IP 是 112.124.193.271。而 Pipelines 管理控制檯的連接是: [https://112.124.193.271/pipel...]()
kubectl get ing -n kubeflow
NAME             HOSTS   ADDRESS           PORTS     AGE
ml-pipeline-ui   *       112.124.193.271   80, 443   11m
  1. 訪問 pipelines 管理控制檯

若是使用自簽發證書,會提示此連接非私人連接,請點擊顯示詳細信息, 並點擊訪問此網站。

請輸入步驟 2.2 中的用戶名 admin 和設定的密碼。

這時就可使用 pipelines 管理和運行訓練任務了。
image

Q&A

  1. 爲何這裏要使用阿里雲的 SSD 雲盤?

這是因爲阿里雲的 SSD 雲盤能夠設置按期的自動備份,保證 pipelines 中的元數據不會丟失。

  1. 如何進行雲盤備份?

若是您想備份雲盤的內容,能夠爲雲盤 手動建立快照 或者 爲硬盤設置自動快照策略 按時自動建立快照。

  1. 如何清理 Kubeflow Piplines 部署?

這裏的清理工做分爲兩個部分:

  • 刪除 Kubeflow Pipelines 的組件
kubectl delete -f /tmp/ack-auto-clouddisk.yaml
  • 經過釋放雲盤分別釋放 mysql 和 minio 存儲對應的兩個雲盤
  1. 如何使用現有云盤做爲數據庫存儲,而避免自動建立雲盤?

請參考文檔

總結

本文爲您初步介紹了 Kubeflow Pipelines 的背景和其所要解決的問題,以及如何在阿里雲上經過 Kustomize 快速構建一套服務於機器學習的 Kubeflow Pipelines, 後續咱們會分享如何利用 Kubeflow Pipelines 開發一個完整的機器學習流程。



本文做者:一綠舟

原文連接

本文爲雲棲社區原創內容,未經容許不得轉載。

相關文章
相關標籤/搜索