做者|Roshini Johri
編譯|VK
來源|Towards Data Sciencehtml
將大規模的機器學習系統投入生產,創建一個漂亮的流線化功能庫,這已經成爲我一個新癡迷的技術點。python
我最近開始了一系列關於學習和教學如何作到這一點的三部分教程,以實現不一樣的機器學習工做流程。本文假設了機器學習模型的基本知識,並重點介紹瞭如何在生產中創建工做流和部署。git
在本系列的第一部分中,咱們將在Amazon Sagemaker上設置此功能。咱們將使用sklearn的波士頓住房數據集。github
讓咱們花點時間來回顧一下機器學習的生命週期。簡化的機器學習生命週期以下所示:算法
如今,第一部分,數據準備,實際上應該是包括數據預處理和用於接下來步驟所需的特徵工程。我將簡要地概述這些步驟是什麼樣子。api
下一階段包括建模和評估階段:bash
最後,也是咱們閱讀本文的真正緣由,部署。session
以上是一個簡化但很漂亮的機器學習管道。如今讓咱們看看如何使用Amazon Sagemaker設置一個。機器學習
如今,第一步從建立AWS賬戶開始。若是你已經熟悉Amazon提供的實例(ec2實例)的類型,這會有所幫助。性能
若是沒有,能夠查看這個連接:https://aws.amazon.com/sagemaker/pricing/instance-types/
Sagemaker實例針對運行機器學習(ML)算法進行了優化。實例的類型還取決於區域和可用區域。
若是你以爲過多地閱讀有關實例類型的詳細信息很無聊,那麼就能夠簡化成如下選項:
啓動ML的好實例:ml.m4.xlarge (not free)
啓動DL的好實例:ml.p2.xlarge (not free)
AWS Sagemaker EC2實例有與之關聯的默認配額。你可能不老是獲得20,這也會隨着區域的不一樣而變化。
根據用例的不一樣,你可能須要請求和增長。這能夠經過建立一個帶有AWS支持中心的案例來實現。請在這裏查看更多信息:https://docs.aws.amazon.com/general/latest/gr/aws_service_limits.html
如今要啓動sagemaker Notebook實例,請轉到aws賬戶服務來搜索sagemaker。進入sagemaker頁面後,單擊建立notebook實例。以下所示:
下一步是選擇IAM角色。首先,嘗試建立一個新角色,而後選擇none做爲s3bucket,除非有一個s3bucket要從中讀取。另外,此時應該有一個可選的選擇來選擇git存儲庫。滾動到下方並單擊「建立Notebook實例」。
你能夠看到正在建立的Notebook的狀態,一旦準備就緒,你能夠選擇jupyter或jupyter lab。
若是你須要克隆你的git存儲庫,打開終端從右邊的jupyter面板,選擇new,並執行如下操做:
cd SageMaker git clone myFunSagemakerRepo
這應該爲你設置一個notebook實例和一個GitHub存儲庫。
咱們將使用load_boston() 方法從sklearn獲取數據集。而後,咱們將這個數據集拆分爲訓練、驗證和測試集。
#加載數據 boston_data = load_boston() #訓練數據 X_bos_pd = pd.DataFrame(boston_data.data, columns=boston_data.feature_names) #目標 Y_bos_pd = pd.DataFrame(boston_data.target) #訓練/測試分離 X_train, X_test, Y_train, Y_test = sklearn.model_selection.train_test_split(X_bos_pd, Y_bos_pd, test_size=0.20) #訓練驗證分離 X_train, X_val, Y_train, Y_val = sklearn.model_selection.train_test_split(X_train, Y_train, test_size=0.33)
一旦訓練、驗證和測試數據集被建立,這些數據集須要上傳到s3(簡單存儲服務)存儲桶中,以便sagemaker容器在執行訓練做業時能夠訪問它。
最好使用前綴指定位置,最好是型號名稱和版本,以確保路徑乾淨。上傳後,你能夠從控制檯轉到s3服務並進行檢查。
prefix = 'boston-xgboost-example' test_location = session.upload_data(os.path.join(data_dir, 'test.csv'), key_prefix=prefix) val_location = session.upload_data(os.path.join(data_dir, 'validation.csv'), key_prefix=prefix) train_location = session.upload_data(os.path.join(data_dir, 'train.csv'), key_prefix=prefix)
在sagemaker中訓練機器學習模型涉及到建立訓練工做。咱們將使用xgboost模型。請查看此處連接的文檔,以確保你查看了sagemaker要求和語法:https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost.html
要訓練sagemaker模型,第一個任務是建立一個包含如下內容的訓練工做:
S3訓練/驗證集的位置(注:這應該是csv文件)
模型的計算資源(這與咱們用於Notebook的資源不一樣)
輸出S3位置(模型)
內置模型的Docker路徑
模型評估器
爲了訓練一個模型,咱們須要建立一個模型估計器。這將包含如何訓練模型(配置)的信息。
咱們將使用名爲get_image_uri的SageMaker實用程序方法來獲取內置算法容器的路徑
estimator初始化以下所示。我在這裏用了一個付費的例子。
container = get_image_uri(session.boto_region_name, 'xgboost') #xgboost estimator xgb_estimator = sagemaker.estimator.Estimator( container, role, train_instance_count=1, train_instance_type='ml.m4.xlarge', output_path='s3://{}/{}/output'.format(session.default_bucket(), prefix), sagemaker_session=session )
模型超參數
在任何一種模型訓練方法中,最重要的部分是,在開始訓練以前,咱們須要調用estimator的set_hyperparameters 方法。有關xgboost超參數,請參閱此處:https://docs.aws.amazon.com/sagemaker/latest/dg/xgboost_hyperparameters.html
當estimator都設置好後,就能夠開始訓練了
xgb_estimator.set_hyperparameters(max_depth=5, eta=0.2, gamma=4, min_child_weight=6, subsample=0.8, objective='reg:linear', early_stopping_rounds=10, num_round=200) train_s3 = sagemaker.s3_input(s3_data=train_location, content_type='csv') validation_s3 = sagemaker.s3_input(s3_data=val_location, content_type='csv') xgb_estimator.fit({'train': train_s3, 'validation': validation_s3})
模型評估
SageMaker使用transformer對象來評估模型。
像estimator這樣的transformer對象須要知道instance_count和instance_type以及它須要轉換的測試數據的格式。爲了讓transformer以批處理方式評估測試數據,咱們須要讓它知道拆分類型是什麼,以便將文件分紅塊。
xgb_transformer = xgb_estimator.transformer(instance_count = 1, instance_type = 'ml.m4.xlarge') xgb_transformer.transform(test_location, content_type='text/csv', split_type='Line') xgb_transformer.wait()
如今,爲了把數據從s3移回Notebook進行分析,咱們把數據複製一遍
!aws s3 cp --recursive $xgb_transformer.output_path $data_dir
如今咱們來評估!
Y_pred = pd.read_csv(os.path.join(data_dir, 'test.csv.out'), header=None)
經過高級api進行模型部署很是簡單。我將展現一個示例,演示如何部署咱們剛剛訓練過的上述模型。
#調用deploy方法啓動端點實例 xgb_predictor = xgb_estimator.deploy(initial_instance_count=1, instance_type='ml.m4.xlarge') xgb_predictor.content_type = 'text/csv' xgb_predictor.serializer = csv_serializer Y_pred = xgb_predictor.predict(X_test.values).decode('utf-8') #作完後別忘了關機/清理!
與咱們如何使用transformer對象進行評估相似,咱們能夠對部署的模型執行相同的操做。咱們能夠在不一樣的概念漂移(可能致使模型衰退的數據的底層分佈的變化)運行後的比較這些結果。
根據測試集的大小,咱們能夠決定是一次性發送數據仍是分塊發送數據。
Xgb predictor須要知道文件的格式以及要使用的序列化器的類型。
這是一個很是簡單的方法,能夠嘗試在AWS Sagemaker上設置第一個ml工做流。我建議你先從簡單的開始,而後再轉向複雜的。咱們將在後面的文章中討論較低級別的api,並真正深刻到細節中。可是爲了得到基本的理解,請嘗試使用一些簡單的數據集進行設置,並使用可用的不一樣模型。
記得:
SageMaker文檔:
開發人員文檔可在此處找到:https://docs.aws.amazon.com/sagemaker/latest/dg/
Python SDK文檔(也稱爲高級方法)可在如下位置找到:https://sagemaker.readthedocs.io/en/latest/
在github上能夠找到Python SDK代碼:https://github.com/aws/sagemaker-python-sdk
歡迎關注磐創AI博客站:
http://panchuang.net/
sklearn機器學習中文官方文檔:
http://sklearn123.com/
歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/