用 Spot 實例訓練 ML 模型,誰說訓練成本降不下來!

專屬圖1.png

用過 AWS EC2 實例的用戶可能都知道,EC2 有一種 Spot 實例,能夠將 AWS 中暫未使用的 EC2 容量提供給用戶,相比按需實例,最多可享受90%的價格折扣。html

那麼當你使用 Amazon SageMaker 訓練本身的 ML 模型時,面對長時間運行訓練任務致使的高額帳單,是否考慮過,能不能經過 EC2 Spot 實例的方式來節約成本?python

好消息來了!git

託管 Spot 訓練功能隆重上線

Amazon SageMaker 的託管 Spot 訓練功能已經正式發佈!這是一個基於Amazon EC2 Spot 實例的新功能,與在 Amazon SageMaker 中使用按需實例相比,最高可節約90%的 ML 訓練成本。Spot 實例並非新事物,從推出至今的近10年時間裏,Spot 實例已經成爲在 AWS 上構建可擴展和經濟實惠 IT 平臺的基石之一。從今天開始,用戶不只能在徹底託管的基礎設施上運行 Amazon SageMaker 訓練做業,同時也將受益於徹底託管的成本優化優點,以一樣預算取得更大成果。github

全部訓練配置中均可以使用託管 Spot 訓練功能:算法

  • Amazon SageMaker 支持的全部實例類型;
  • 全部模型:內置算法、內置框架和自定義模型
  • 全部配置:單實例訓練、分佈式訓練、自動模型調整
  • 與任何徹底託管式服務同樣,它的設置極爲簡單:
  • 若是使用控制檯,只需打開此功能便可。
  • 若是使用 Amazon SageMaker 軟件開發工具包,只需在 Estimator 構建器中將 train_use_spot_instances 設置爲 true 便可。

就是這麼簡單:而且能夠最高節省90%的成本!很棒吧。框架

中斷與檢查點設置

使用託管Spot訓練功能時須要注意一個重要差別:按需訓練實例在訓練做業完成前都會保持可用,而託管Spot訓練實例可能在咱們須要更多容量時隨時被收回。
使用 Amazon Elastic Compute Cloud (EC2) Spot 實例時,咱們將提早2分鐘收到終止通知,而且必須自行採起恰當行動。不過也無需擔憂,由於 Amazon SageMaker 是一種徹底託管的服務,它會自動處理此工做,中斷訓練做業,再次取得足夠的 Spot 容量後重啓或恢復訓練做業。若是在做業開始時間和持續時間上比較靈活,託管 Spot 訓練功能將尤爲有意義。此外,咱們還可使用 MaxWaitTimeInSeconds 參數來控制訓練做業的總持續時間(實際訓練時間加等候時間)。分佈式

爲避免在訓練做業中斷時從頭重啓訓練做業,強烈建議設置檢查點,藉此便可按必定間隔保存訓練中的模型。這樣咱們就能夠從定義明確的時間點恢復訓練做業,從最近的部分訓練模型繼續做業。ide

  • 內置框架和自定義模型:訓練代碼由咱們本身徹底控制。只需確保使用本身在 CheckpointConfig 參數中定義並傳遞到 SageMaker Estimator 的位置,經過恰當的 API 按期將模型檢查點保存到 Amazon Simple Storage Service (S3)。請注意 TensorFlow 會默認使用檢查點。對於其餘框架,相關示例參見示例筆記本文檔
  • 內置算法:計算機視覺算法支持檢查點功能(對象檢測算法語義分割算法以及最近推出的圖像分類算法)。因爲這些算法每每用於大型數據集的訓練,運行的時間也長於其餘算法,發生中斷的可能性也更高。其餘內置算法目前不支持檢查點功能。

接下來一塊兒看看實際操做演示吧。工具

使用 Spot 訓練功能訓練內置的對象檢測模型

參考此示例筆記本,咱們一塊兒經過 AWS 控制檯使用託管 Spot 訓練實例來訓練一樣的做業,而不使用按需訓練實例。上文曾經提到,此時只需關注兩件事情:開發工具

  • 啓用託管 Spot 訓練功能(顯而易見)。
  • 設置 MaxWaitTimeInSeconds 參數。

首先爲訓練做業命名,確保它擁有恰當的 AWS Identity and Access Management (IAM)權限(和之前的作法同樣)。

julsimon-sm-spot-1-1024x452.png

而後選擇內置的對象檢測算法:

julsimon-sm-spot-2-1024x808.png

接下來爲訓練做業選擇實例數量和實例類型,確保擁有足夠的存儲以知足檢查點之需:

julsimon-sm-spot-3-1024x589.png

隨後設置超參數,此處將使用與筆記本中相同的參數。而後定義訓練數據集的位置和屬性:

julsimon-sm-spot-4-1024x822.png

對驗證數據集執行一樣的操做:

juliensimon-sm-spot-6-1024x605.png

再定義模型檢查點的保存位置。這是 Amazon SageMaker 將在發生中斷時提取檢查點以恢復訓練做業的位置。

julsimon-sm-spot-6-1024x379.png

這是最終模型構件的保存位置:

julsimon-sm-spot-7-1024x298.png

接下來只須要耐心等待。假設啓用了託管 Spot 訓練功能,並配置了一個十分寬鬆的48小時最大等待時間:

julsimon-sm-spot-8-1024x354.png

一切搞定,讓咱們來訓練此模型。訓練完成後,成本節省狀況在控制檯中一目瞭然。

julsimon-sm-spot-9-1024x403.png

從上圖能夠看到,訓練做業運行了2423秒,但得益於託管 Spot 訓練功能,實際上只支付了837秒的費用,節省達65%!說到費用,下文將介紹該方式的訂價機制。

訂價

託管 Spot 訓練做業按照完成或終止前運行的持續時間收費。

若是不使用檢查點功能的內置算法和 AWS Marketplace 算法,會強制執行60分鐘最大訓練時間(MaxWaitTimeInSeconds 參數)。

最後一樣重要的是:不管訓練做業重啓或恢復了多少次,用戶僅需爲數據下載時間付費一次。

該功能已在提供 Amazon SageMaker 服務的全部區域推出,當即試試吧。

底圖2.png

相關文章
相關標籤/搜索