生產中的ML-1：Amazon Sagemaker-AWS，設置，訓練和部署

時間 2020-09-10

標籤生產 amazon sagemaker aws 設置訓練部署欄目硅谷简体版

原文原文鏈接

做者|Roshini Johri
編譯|VK
來源|Towards Data Sciencehtml

將大規模的機器學習系統投入生產，創建一個漂亮的流線化功能庫，這已經成爲我一個新癡迷的技術點。python

我最近開始了一系列關於學習和教學如何作到這一點的三部分教程，以實現不一樣的機器學習工做流程。本文假設了機器學習模型的基本知識，並重點介紹瞭如何在生產中創建工做流和部署。git

在本系列的第一部分中，咱們將在Amazon Sagemaker上設置此功能。咱們將使用sklearn的波士頓住房數據集。github

機器學習生命週期

讓咱們花點時間來回顧一下機器學習的生命週期。簡化的機器學習生命週期以下所示：算法

如今，第一部分，數據準備，實際上應該是包括數據預處理和用於接下來步驟所需的特徵工程。我將簡要地概述這些步驟是什麼樣子。api

獲取數據：這是一個從repo、etl等讀取數據的過程，將數據移動到一個位置，以造成訓練數據的原始版本。
清理數據：這個階段更多的是作一些基本的清理，好比類型轉換、空處理、確保字符串/類別等是一致的
準備/轉換：特徵轉換、派生、高階特徵，如交互特徵、進行一些編碼等。

下一階段包括建模和評估階段：bash

訓練模型：在這個階段，你的數據應該以特徵向量的形式出現，標籤分爲訓練、驗證和測試。在這個階段，你將讀取這些數據，在訓練集上訓練你的模型，在驗證集上調參並在測試集上進行測試！這也是你保存模型以進行評估的階段。
評估模型：評估階段，判斷是否「個人模型作正確的事情」，是最重要的階段之一，我以爲咱們歷來沒有花足夠的時間在這個階段上。模型評估將幫助你瞭解模型性能。注意你的模型評估指標，並選擇正確的指標。

最後，也是咱們閱讀本文的真正緣由，部署。session

部署到生產環境：這是準備將模型發佈到公共的階段。咱們要注意概念漂移和模型衰減（因爲底層分佈的變化而致使性能的變化）
監控/收集/評估數據：模型性能、輸入/輸出路徑、錯誤度量、日誌、模型組件等都將被時間戳標記和記錄，應圍繞模型選擇創建度量監控和警報系統，以實現完美的管道！

以上是一個簡化但很漂亮的機器學習管道。如今讓咱們看看如何使用Amazon Sagemaker設置一個。機器學習

Amazon Sagemaker

如今，第一步從建立AWS賬戶開始。若是你已經熟悉Amazon提供的實例（ec2實例）的類型，這會有所幫助。性能

若是沒有，能夠查看這個連接：https://aws.amazon.com/sagemaker/pricing/instance-types/

Sagemaker實例針對運行機器學習（ML）算法進行了優化。實例的類型還取決於區域和可用區域。

若是你以爲過多地閱讀有關實例類型的詳細信息很無聊，那麼就能夠簡化成如下選項：

啓動ML的好實例：ml.m4.xlarge (not free)

啓動DL的好實例：ml.p2.xlarge (not free)

AWS Sagemaker EC2實例有與之關聯的默認配額。你可能不老是獲得20，這也會隨着區域的不一樣而變化。

根據用例的不一樣，你可能須要請求和增長。這能夠經過建立一個帶有AWS支持中心的案例來實現。請在這裏查看更多信息：https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html

Sagemaker Notebook實例

如今要啓動sagemaker Notebook實例，請轉到aws賬戶服務來搜索sagemaker。進入sagemaker頁面後，單擊建立notebook實例。以下所示：

下一步是選擇IAM角色。首先，嘗試建立一個新角色，而後選擇none做爲s3bucket，除非有一個s3bucket要從中讀取。另外，此時應該有一個可選的選擇來選擇git存儲庫。滾動到下方並單擊「建立Notebook實例」。

你能夠看到正在建立的Notebook的狀態，一旦準備就緒，你能夠選擇jupyter或jupyter lab。

若是你須要克隆你的git存儲庫，打開終端從右邊的jupyter面板，選擇new，並執行如下操做:

cd SageMaker

git clone myFunSagemakerRepo

這應該爲你設置一個notebook實例和一個GitHub存儲庫。

Sagemaker會議和角色

咱們將使用load_boston() 方法從sklearn獲取數據集。而後，咱們將這個數據集拆分爲訓練、驗證和測試集。

#加載數據
boston_data = load_boston()

#訓練數據
X_bos_pd = pd.DataFrame(boston_data.data, columns=boston_data.feature_names)

#目標
Y_bos_pd = pd.DataFrame(boston_data.target)

#訓練/測試分離
X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X_bos_pd, Y_bos_pd, test_size=0.20)

#訓練驗證分離
X_train, X_val, Y_train, Y_val = sklearn.model_selection.train_test_split(X_train, Y_train, test_size=0.33)

一旦訓練、驗證和測試數據集被建立，這些數據集須要上傳到s3（簡單存儲服務）存儲桶中，以便sagemaker容器在執行訓練做業時能夠訪問它。

最好使用前綴指定位置，最好是型號名稱和版本，以確保路徑乾淨。上傳後，你能夠從控制檯轉到s3服務並進行檢查。

prefix = 'boston-xgboost-example'

test_location = session.upload_data(os.path.join(data_dir, 'test.csv'), key_prefix=prefix)
val_location = session.upload_data(os.path.join(data_dir, 'validation.csv'), key_prefix=prefix)
train_location = session.upload_data(os.path.join(data_dir, 'train.csv'), key_prefix=prefix)

Sagemaker 訓練

在sagemaker中訓練機器學習模型涉及到建立訓練工做。咱們將使用xgboost模型。請查看此處連接的文檔，以確保你查看了sagemaker要求和語法：https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html

要訓練sagemaker模型，第一個任務是建立一個包含如下內容的訓練工做：

S3訓練/驗證集的位置（注：這應該是csv文件）
模型的計算資源（這與咱們用於Notebook的資源不一樣）
輸出S3位置（模型）
內置模型的Docker路徑

模型評估器

爲了訓練一個模型，咱們須要建立一個模型估計器。這將包含如何訓練模型（配置）的信息。
咱們將使用名爲get_image_uri的SageMaker實用程序方法來獲取內置算法容器的路徑
estimator初始化以下所示。我在這裏用了一個付費的例子。

container = get_image_uri(session.boto_region_name, 'xgboost')

#xgboost estimator
xgb_estimator = sagemaker.estimator.Estimator(
container, 
role,      
train_instance_count=1,                                                                            train_instance_type='ml.m4.xlarge',                                                 output_path='s3://{}/{}/output'.format(session.default_bucket(), prefix),
sagemaker_session=session
)

模型超參數

在任何一種模型訓練方法中，最重要的部分是，在開始訓練以前，咱們須要調用estimator的set_hyperparameters 方法。有關xgboost超參數，請參閱此處：https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost_hyperparameters.html
當estimator都設置好後，就能夠開始訓練了

xgb_estimator.set_hyperparameters(max_depth=5,
                        eta=0.2,
                        gamma=4,
                        min_child_weight=6,
                        subsample=0.8,
                        objective='reg:linear',
                        early_stopping_rounds=10,
                        num_round=200)
                        
train_s3 = sagemaker.s3_input(s3_data=train_location, content_type='csv')
validation_s3 = sagemaker.s3_input(s3_data=val_location, content_type='csv')

xgb_estimator.fit({'train': train_s3, 'validation': validation_s3})

模型評估

SageMaker使用transformer對象來評估模型。
像estimator這樣的transformer對象須要知道instance_count和instance_type以及它須要轉換的測試數據的格式。爲了讓transformer以批處理方式評估測試數據，咱們須要讓它知道拆分類型是什麼，以便將文件分紅塊。

xgb_transformer = xgb_estimator.transformer(instance_count = 1, instance_type = 'ml.m4.xlarge')

xgb_transformer.transform(test_location, content_type='text/csv', split_type='Line')

xgb_transformer.wait()

如今，爲了把數據從s3移回Notebook進行分析，咱們把數據複製一遍

!aws s3 cp --recursive $xgb_transformer.output_path $data_dir

如今咱們來評估！

Y_pred = pd.read_csv(os.path.join(data_dir, 'test.csv.out'), header=None)

模型部署

經過高級api進行模型部署很是簡單。我將展現一個示例，演示如何部署咱們剛剛訓練過的上述模型。

#調用deploy方法啓動端點實例

xgb_predictor = xgb_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge')

xgb_predictor.content_type = 'text/csv'
xgb_predictor.serializer = csv_serializer

Y_pred = xgb_predictor.predict(X_test.values).decode('utf-8')

#作完後別忘了關機/清理！

與咱們如何使用transformer對象進行評估相似，咱們能夠對部署的模型執行相同的操做。咱們能夠在不一樣的概念漂移（可能致使模型衰退的數據的底層分佈的變化）運行後的比較這些結果。
根據測試集的大小，咱們能夠決定是一次性發送數據仍是分塊發送數據。
Xgb predictor須要知道文件的格式以及要使用的序列化器的類型。

這是一個很是簡單的方法，能夠嘗試在AWS Sagemaker上設置第一個ml工做流。我建議你先從簡單的開始，而後再轉向複雜的。咱們將在後面的文章中討論較低級別的api，並真正深刻到細節中。可是爲了得到基本的理解，請嘗試使用一些簡單的數據集進行設置，並使用可用的不一樣模型。