做者 | 徐曉舟(蕭元)
來源|阿裏巴巴雲原生公衆號html
因爲雲計算在資源成本和彈性擴容方面的自然優點,愈來愈多客戶願意在雲上構建 AI 系統,而以容器、Kubernetes 爲表明的雲原生技術,已經成爲釋放雲價值的最短路徑, 在雲上基於 Kubernetes 構建 AI 平臺已經成爲趨勢。python
當面臨較複雜的模型訓練或者數據量大時,單機的計算能力每每沒法知足算力要求。經過使用阿里的 AiACC 或者社區的 horovod 等分佈式訓練框架,僅需修改幾行代碼,就能將一個單機的訓練任務擴展爲支持分佈式的訓練任務。在 Kubernetes 上常見的是 kubeflow 社區的 tf-operator 支持 Tensorflow PS 模式,或者 mpi-operator 支持 horovod 的 mpi allreduce 模式。git
Kubernetes 和雲計算提供敏捷性和伸縮性,咱們能夠經過 cluster-AutoScaler 等組件爲訓練任務設置彈性策略,利用 Kubernetes 的彈性能力,按需建立,減小 GPU 設備空轉。github
但這種伸縮模式面對訓練這種離線任務仍是略有不足:api
如何給訓練任務賦予彈性能力,是提升性價比的關鍵路徑。近期 horovod 等分佈式框架逐漸支持了 Elastic Training,即彈性訓練能力。也就是容許一個訓練任務在執行的過程當中動態的擴容或者縮容訓練 worker, 從不會引發訓練任務的中斷。須要在代碼中作少許修改適配,可參考:https://horovod.readthedocs.io/en/stable/elastic_include.html。安全
對 Elastic training 的實現原理感興趣能夠看這篇 Elastic Horovod 設計文檔, 本文不詳細介紹。app
在 mpi-operator 中,參與訓練的 Worker 都是做爲靜態資源設計和維護,支持彈性訓練模式後,給任務增長了靈活性,同時也給運維層帶來了挑戰,例如:框架
針對以上問題,咱們設計開發了 et-operator,提供 TrainingJob CRD 描述訓練任務, ScaleOut 和 ScaleIn CRD 描述擴容和縮容操做, 經過它們的組合,使咱們的訓練任務更具備彈性。將這個方案開源,歡迎你們提需求、交流、吐槽。運維
開源方案地址:https://github.com/AliyunContainerService/et-operatorssh
TrainingJob Controller 主要有如下功能:
TrainingJob 子資源建立順序以下:
TrainingJob 相關資源:
TrainingJob CR 的配置分爲 Lanucher 和 Worker。在 Launcher 中指定任務的鏡像和啓動執行, 默認 et-operator 會根據 worker 分配狀況,生成一個 hostfile 文件和 discover_host 腳本,discover_host 腳本掛載到 Launcher 的 /etc/edl/discover_hosts.sh 文件, 在入口腳本的 horovodrun 執行中經過 --host-discovery-script 參數指定。在 Worker 設置中指定 worker 的鏡像和 GPU 佔用 ,並能夠經過 maxReplicas / minReplicas 指定 workers 的副本數容許範圍。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata: name: elastic-training namespace: default spec: cleanPodPolicy: Running etReplicaSpecs: launcher: replicas: 1 template: spec: containers: - command: - sh - -c - horovodrun -np 2 --min-np 1 --max-np 9 --host-discovery-script /etc/edl/discover_hosts.sh python /examples/elastic/tensorflow2_mnist_elastic.py image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu imagePullPolicy: Always name: mnist-elastic worker: maxReplicas: 9 minReplicas: 1 replicas: 2 template: spec: containers: - image: registry.cn-huhehaote.aliyuncs.com/lumo/horovod:master-tf2.1.0-torch1.4.0-mxnet-py3.6-gpu imagePullPolicy: Always name: mnist-elastic resources: limits: nvidia.com/gpu: "1" requests: nvidia.com/gpu: "1" status: currentWorkers: - elastic-training-worker-0 - elastic-training-worker-1 - elastic-training-worker-2 - elastic-training-worker-3 phase: Succeeded replicaStatuses: Launcher: active: 1 succeeded: 1 Worker: active: 4
除了 TrainingJob 外,et-operator 同時支持 ScaleOut 和 ScaleIn 兩種 CRD,下發訓練任務擴容和縮容操做。
當下發一個 ScaleOut CR,ScaleOutController 觸發 Reconcile, 這裏工做很簡單,根據 ScaleOut CR 中的 Selector 字段,找到 Scaler 對應的 TrainingJob,設置到 CR 的 OwnerReferences 上。
以一個 ScaleOut 操做舉例:
- apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleOut metadata: creationTimestamp: "2020-11-04T13:54:26Z name: scaleout-ptfnk namespace: default ownerReferences: - apiVersion: kai.alibabacloud.com/v1alpha1 blockOwnerDeletion: true controller: true kind: TrainingJob name: elastic-training // 指向擴容對象TrainingJob uid: 075b9c4a-22f9-40ce-83c7-656b329a2b9e spec: selector: name: elastic-training toAdd: count: 2
TrainingJobController 中監聽到屬於 TrainingJob 的 ScaleOut CR 有更新, 觸發 TrainingJob 的 Reconcile,遍歷過濾 TrainingJob 下 OwnerReference 指向的 ScaleIn 和 ScaleOut, 根據建立時間和狀態時間決定執行的擴容或者縮容。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: TrainingJob metadata: name: elastic-training namespace: default spec: // ...... Launcher and Worker spec status: currentScaler: ScaleIn:default/scaleout-ptfnk phase: Scaling currentWorkers: - elastic-training-worker-0 - elastic-training-worker-1
ScaleOut 任務 CR:
ScaleIn 任務 CR:
詳細工做過程:
mkdir -p $(go env GOPATH)/src/github.com/aliyunContainerService cd $(go env GOPATH)/src/github.com/aliyunContainerService git clone https://http://github.com/aliyunContainerService/et-operator cd et-operator kubectl create -f deploy/all_in_one.yaml
檢測 crd 的安裝:
# kubectl get crd NAME CREATED AT scaleins.kai.alibabacloud.com 2020-11-11T11:16:13Z scaleouts.kai.alibabacloud.com 2020-11-11T11:16:13Z trainingjobs.kai.alibabacloud.com 2020-11-11T11:16:13Z
檢測 controller 的運行狀態,默認安裝在 kube-ai 中:
# kubectl -n kube-ai get po NAME READY STATUS RESTARTS AGE et-operator-controller-manager-7877968489-c5kv4 0/2 ContainerCreating 0 5s
運行事先已準備好的示例:
kubectl apply -f examples/training_job.yaml
檢測運行狀態:
# kubectl get trainingjob NAME PHASE AGE elastic-training Running 77s # kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 7s elastic-training-worker-0 1/1 Running 0 10s elastic-training-worker-1 1/1 Running 0 9s
執行縮容時,能夠經過 ScaleIn CR 中的 spec.toDelete.count 或 spec.toDelete.podNames 字段指定縮容的 worker。
經過 count 配置縮容的數量,則經過 index 計算由高到低縮容 Worker。
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata: name: scalein-workers spec: selector: name: elastic-training toDelete: count: 1
若是想要縮容特定的 Worker,能夠配置 podNames:
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleIn metadata: name: scalein-workers spec: selector: name: elastic-training toDelete: podNames: - elastic-training-worker-1
運行一個縮容示例,指定數量縮容 1 個 worker:
kubectl create -f examples/scale_in_count.yaml
檢測縮容執行狀態和訓練任務:
# kubectl get scalein NAME PHASE AGE scalein-sample-t8jxd ScaleSucceeded 11s # kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 47s elastic-training-worker-0 1/1 Running 0 50s
在 ScaleOut CR 中,經過 spec.toAdd.count 字段指定擴容的 worker 數:
apiVersion: kai.alibabacloud.com/v1alpha1 kind: ScaleOut metadata: name: elastic-training-scaleout-9dtmw namespace: default spec: selector: name: elastic-training timeout: 300 toAdd: count: 2
運行示例:
kubectl create -f examples/scale_out.yaml
檢測縮容執行狀態和訓練任務:
kubectl get scaleout NAME PHASE AGE elastic-training-scaleout-9dtmw ScaleSucceeded 30s kubectl get po NAME READY STATUS RESTARTS AGE elastic-training-launcher 1/1 Running 0 2m5s elastic-training-worker-0 1/1 Running 0 2m8s elastic-training-worker-1 1/1 Running 0 40s elastic-training-worker-2 1/1 Running 0 40s
ET-Operator 提供一組訓練和擴縮容 CRD 和 Controller, 讓咱們在 Kubernetes 上方便地運行彈性分佈式訓練,支持下發分佈式訓練任務,並經過和分佈式框架的集成聯動,在訓練任務運行過程當中動態地擴容和縮容參與運算的 Workers。使咱們的訓練任務具備彈性能力,結合搶佔實例,可以更好的利用雲上的資源彈性和性價比優點。