SageMaker實操分享

時間 2020-05-26

標籤 sagemaker 分享简体版

原文原文鏈接

SageMaker功能模塊簡介html

1Ground Truthgit

Ground Truth是一個給數據打標籤的平臺。能夠選擇純人工打標籤，若是工做量特別大，也能夠選擇人工和智能機器協做打標籤。github

例如在Ground Truth平臺上操做，框選出貓眼睛，會自動生成一個json文件如圖中右上角，json描述了眼睛在圖中的左上角、右下角座標。算法

生成的json文件（即標籤信息）能夠做爲對象檢測訓練的輸入數據。json

標記任務api

建立一個打標籤任務，主要包含待打標籤圖片所在路徑、生成的標籤信息文件json所在路徑。併發

輸入任務名稱、輸出路徑後，點擊「建立清單文件==>輸入圖片路徑==>建立==>use this manifest框架

IAM角色下拉框==>create a new role
機器學習

這裏以對象識別模型爲例，任務類型選「邊界框」ide

下一步把標籤任務分配給相關工做人員：

公有：aws龐大的人工團隊，須要付費。

私有：貴公司本身的員工。

供應商：第三方專業打標籤的供應商，須要付費。

選擇「私有」須要先建立一個團隊（後面講）

紅框「啓用」表明人和機器共同勞做，系統自動將圖片分發給人和機器，機器一開始並不知道怎麼打標籤，因此打出來的標籤每每是錯誤的，

這時系統會自動將機器打完標籤的圖片又回傳給人工複覈，機器經過學習複覈結果提高技能。

這個過程是來來回回、反反覆覆的直到機器掌握足夠的水平。接下來機器開始自動打標籤，對於一些機器不能肯定的圖片仍然會交由人工處理。

待識別的圖片必須大於1250張纔可啓用機器標籤，建議5000張圖片以上，才選擇啓用。

能夠給圖片添加多個標籤，好比須要識別圖片中的貓眼睛，貓耳朵等。

這裏假如只但願識別眼睛，因此只添加一個eyes標籤。

提交後，看到任務狀態爲「正在進行」。這時貴公司工做人員可經過郵件提供的地址登陸Ground Truth平臺開始打標籤工做。

任務結束後，生成一份output.manifest文件，即標籤信息總文件。後續訓練模型時做爲輸入文件（train通道）。

相似的，選擇另一批圖片，創建另一個Ground Truth任務生成另一個相似的manifest文件，並作爲object detection模型訓練時的另一個輸入文件（validation通道）

（訓練模型一般須要training data和validation data）

標籤任務還生成一些其餘中間文件，詳情參考

https://docs.aws.amazon.com/sagemaker/latest/dg/sms-data-output.html

標記隨需人力

1，邀請新工做人員輸入員工經過郵件，員工會收到郵件告知登陸Ground Truth平臺的URL、用戶名、密碼。

2，建立私人團隊建立團隊後刷新一下頁面，再向團隊添加以前建立的工做人員。

2 筆記本

建立一臺EC2筆記本，jupyter已經搭建安裝好各類語言及機器學習框架供科學家直接使用。

熟練的科學家能夠在這個平臺以編寫代碼調用sagemaker API的形式完成機器學習的整個流程，從一開始的構建本身的算法，驗證算法，訓練模型，調優，等等直到最後部署模型。

一個參考例子：

https://github.com/awslabs/amazon-sagemaker-examples/blob/master/ground_truth_labeling_jobs/ground_truth_object_detection_tutorial/object_detection_tutorial.ipynb

非專業人員，建議使用sagemaker圖形界面來完成這些操做。

3 訓練

算法

科學家在這建立本身的算法，後續經過「訓練任務」生成算法模型。

訓練任務

訓練任務將算法訓練出一個實用的模型。

算法源：sagemaker內置了衆多著名、經典成熟的算法，包括對象檢測（object detection），固然也能夠選擇科學家本身設計的算法。

輸入模型:Pipe

資源配置：訓練時建議選擇P系列EC2，生產部署建議C系列。

運行時間：根據實際狀況設置訓練任務時長。

超參：非專業人員建議使用默認值，科學家可自定義。

超參詳情

https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/object-detection-api-config.html

以前Ground Truth生成的manifest文件內容以下：

source-ref欄位是圖片路徑

lzd-eye是自定義的標籤名

輸入數據配置：

1，默認只有一個「train」通道接收training data。

按上圖填好manifest路徑及source-ref、lzd-eye（根據實際標籤名填寫）等信息

2，添加validation通道接收validation data，除通道名稱爲validation外，其餘信息與train通道相似。

輸出數據配置：即輸出模型路徑

最後建立訓練任務並生成模型。

超級參數優化做業

與「訓練任務」相似，科學家也能夠在這裏從零開始訓練模型或在現有的模型基礎上優化訓練，這裏能夠更加自由地設定超參範圍，讓sagemaker經過併發訓練任務等方式在指定範圍內找到最佳超參。

4 推理

模型訓練好以後，部署在AWS上，部署分爲實時和批量。

實時：模型實時在線，用戶隨時能夠調sagemaker API對圖片進行實時的對象檢測，並實時返回結果。

批量：模型按需啓動，對用戶提供的批量圖片進行對象檢測，並返回批量結果。

training job==>create model

輸入model名稱，其餘保持默認。

點擊model名稱

這裏才批量推斷爲例：create batch inference job

按實際狀況選擇實例類型及數量。

按實際狀況填寫待檢測圖片所在路徑及檢測結果輸出路徑。

batch job結束後在輸出路徑下爲每一個圖片生成一個json文件，描述圖片中檢測到多少個物體，每一個物體所在座標及類別。

詳情請參考：

https://docs.aws.amazon.com/zh_cn/sagemaker/latest/dg/object-detection-in-formats.html

1. 達夢實操分享
2. HBase實操：Spark-Read-HBase-Snapshot-Demo 分享
3. 文件共享實操
4. aws 未完成sagemaker ner
5. 評論：Amazon SageMaker趕超
6. 如何配置AWS SageMaker
7. RocketMQ實戰分享
8. Java8實戰分享
9. JMETER實戰分享
10. WKWebView實踐分享
更多相關文章...
• SVN分支 - SVN 教程
• IP地址分配（靜態分配+動態分配+零配置） - TCP/IP教程
• Git五分鐘教程
• 算法總結-二分查找法

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。