建議收藏！超棒的 AWS 機器學習工具包彙總（文末有福利）

時間 2020-06-19

標籤建議收藏 aws 機器學習工具包彙總简体版

原文原文鏈接

隨着技術和生態的不斷演進、應用場景的不斷探索，機器學習已然再也不僅僅停留在實驗室當中。不管是突飛猛進的互聯網應用，仍是求新求變的企業轉型，機器學習都獲得了普遍的應用，逐步成爲驅動業務的關鍵技術。

機器學習在近 30 多年已發展爲一門多領域交叉學科，也已普遍應用於數據挖掘、計算機視覺、天然語言處理、生物特徵識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA 序列測序、語音和手寫識別、戰略遊戲和機器人等領域。

爲了幫助你們更便捷的解決這些實際問題，讓數據科學家、算法工程師、業務開發者都能輕鬆駕馭機器學習，AWS 推出了各式各樣的機器學習工具，包括：ML 服務類、API 類、AI 服務工具類等。

今天，咱們就對 AWS 的部分優秀機器學習工具作一個整理，分享給各位行業從業者。算法

一. ML 服務類機器學習工具

1. Amazon SageMaker

Amazon SageMaker 是一項徹底託管的服務，可爲每位開發人員和數據科學家提供快速構建、訓練和部署機器學習 (ML) 模型的能力。

開發者能夠在一個集成的可視界面中編寫代碼、跟蹤實驗、可視化數據以及進行調試和監控。從完整的平臺 IDE，到具體代碼與 API，SageMaker 都有一種 Pythonic 精神，簡潔易用，同時提供高級的接口。消除了機器學習過程當中的每一個步驟的繁重工做，讓開發者可以更輕鬆地開發高質量模型，提升開發人員的工做效率。框架

2020 年 4 月底，SageMaker 在 AWS 中國的北京區域和寧夏區域上正式開放。就在前不久，在國內開始正式開放。這標誌着 AWS 人工智能、機器學習平臺服務的關鍵技術已全面進入中國。機器學習

工具亮點：
工具

這是第一個用於機器學習的徹底集成式開發環境 (IDE)
單一集成的可視界面操做，大幅提升開發效率
可自動構建、訓練和調試徹底可視和可控的模型
使用 Amazon SageMaker Ground Truth 將數據標記成本下降多達 70%
使用 Amazon Elastic Inference 可將機器學習推理成本下降多達 75％ API 類

二. API 類機器學習工具

1. 文本轉語音：Amazon Polly

Amazon Polly 是一項雲服務，能夠將文本轉化爲逼真的語音。支持多種語言，幷包含各類逼真的聲音，所以你能夠構建在多個位置工做的支持語音的應用程序，併爲你的客戶使用理想的語音。

此外，Amazon Polly 還包含許多神經文本到語音轉換 (NTTS) 語音，經過新的機器學習方法爲語音質量帶來突破性的改進，從而爲客戶提供儘量最天然的文本到語音的似人類的語音。神經 TTS 技術還支持播音員風格，專爲新聞播報使用案例量身定製。

Amazon Polly 的經常使用案例包括移動應用程序（如新聞閱讀器、遊戲、電子學習平臺）、視障人士輔助功能應用程序以及快速增加的物聯網 (IoT) 細分市場。Alexa 語音助手的品牌定製語音服務，就是經過 Amazon Polly 語音合成平臺提供的。佈局

工具亮點：性能

高質量：新的神經 TTS 和一流的標準 TTS 技術，可合成發音精度極高的超天然語音；
支持多種語言和語音：支持數十種語音語言，併爲大多數語言提供男性和女性語音選項。
經濟實惠：Amazon Polly 採用按需付費訂價模式，每字符轉換成本低廉，而且支持無限次重放，使企業可以以經濟高效的方式爲應用程序添加語音功能。

2．語音轉文本：Amazon Transcribe

Amazon Transcribe 是一項自動語音識別 (ASR) 服務，讓開發人員可以輕鬆地爲其應用程序添加語音轉文本功能。經過使用 Amazon Transcribe API，能夠分析 Amazon S3 中存儲的音頻文件，並讓該服務返回一個轉錄的語音文本文件。開發人員還能夠將實時音頻流發送到 Amazon Transcribe，並實時接收轉錄流。

Amazon Transcribe 可用於不少常見應用程序，包括客戶服務通話轉錄，以及基於音頻和視頻內容生成字幕。該服務能夠轉錄以常見格式（例如 WAV 和 MP3）存儲的音頻文件，併爲每一個詞附加時間戳，以便開發者能夠經過搜索文本輕鬆找到原始源中的音頻。學習

工具亮點：搜索引擎

便於閱讀的轉錄：Amazon Transcribe 採用深度學習功能自動添加標點符號和格式，從而使輸出內容更容易理解，無需進一步編輯便可直接使用。
生成時間戳：Amazon Transcribe 會爲每一個詞返回時間戳，以即可以經過搜索文本輕鬆找到原始錄音中的音頻。
自定義詞彙表：Amazon Transcribe 支持擴展和自定義語音識別詞彙表。使用者能夠將新詞添加到基本詞彙表中，並生成使用案例特定的高度準確的轉錄，例如產品名稱、域特定術語或我的姓名。
識別多個講話者：Amazon Transcribe 可以識別出講話者的變化，並相應地肯定轉錄文本的歸屬。這樣能夠顯著減小轉錄具備多個講話者的音頻（例如電話、會議和電視節目）所需的工做量。

3．從文檔中提取文本和數據：Amazon Textract

Amazon Textract 是一項從掃描的文檔中自動提取文本和數據的服務。Amazon Textract 的功能不僅是簡單的光學字符識別 (OCR)，它還能夠識別表單中字段的內容和表格中存儲的信息。

藉助 Textract，開發人員能夠快速自動執行文檔工做流，數小時可處理數百萬個文檔頁面。此外，開發人員還能夠建立智能搜索索引，構建自動批准工做流，並經過標記可能須要校正的數據，更好地保持對文檔存檔規則的符合性。

結合 Amazon Augmented AI (Amazon A2I) 後，開發人員能夠經過內置人工審覈來管理須要人工判斷的細微或敏感工做流，從而取得高確信度的預測或對預測進行持續審計。

工具亮點： 人工智能

快速準確地提取數據：Amazon Textract 能夠自動檢測文檔的佈局和頁面上的關鍵元素，瞭解任何嵌入式表單或表格中的數據關係，並提取附帶完整上下文的全部內容。
無需維護代碼或模板：藉助 Amazon Textract 預先通過訓練的機器學習模型，無需爲數據提取編寫代碼，不須要爲可能收到的每一個文檔或表單維護代碼，也沒必要擔憂頁面佈局隨着時間的推移而發生變化。
更低的文檔處理成本：Amazon Textract 以很是低的成本提供 OCR 和結構化數據提取（表單和表格），你只需按照實際使用量付費，無需預先承諾或長期合同。

三. AI 服務類機器學習工具

1. 代碼審查工具 —— Amazon CodeGuru

Amazon CodeGuru 是一種機器學習服務，可自動執行代碼審查，並提供應用程序性能建議。它能夠幫助開發人員找到影響應用程序性能的代碼行，並版主進行問題排查，而後提供修復或改進代碼的具體建議。

CodeGuru 由機器學習、最佳實踐以及經在開源項目和 Amazon 內部分析數百萬項代碼審查和數千個應用程序後總結出來的經驗教訓提供支持。spa

2. 快速構建深度學習應用程序 —— AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) 是在雲中進行深度學習的一站式商店，能夠爲機器學習從業人員和研究人員提供基礎設施和各類工具，從而加快在雲中進行任意規模的深度學習的速度。

經過 DLAMI，開發人員能夠快速啓動預先安裝了常見深度學習框架和界面（如 TensorFlow、PyTorch、Apache MXNet、Chainer、Gluon、Horovod 和 Keras）的 Amazon EC2 實例來訓練複雜的自定義 AI 模型、試驗新算法或學習新技能和技巧。

不管須要 Amazon EC2 GPU 仍是 CPU 實例，都無需爲 Deep Learning AMI 支付額外費用。只需爲存儲和運行應用程序所需的 AWS 資源付費。

AWS Deep Learning AMI 可在專爲推理設計的基於 Intel 的 Amazon EC2 C5 實例上運行。AMI 預安裝了 NVIDIA CUDA 和 cuDNN 驅動程序，能夠有效縮短完成計算所需的時間。

爲了簡化軟件包的管理和部署，AWS Deep Learning AMI 安裝了 Anaconda2 和 Anaconda3 數據科學平臺，能夠進行大規模數據處理、預測分析和科學計算。

工欲善其事必先利其器，想要進行機器學習方面的工做研究，配合上優秀的工具必定能夠事半功倍。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。