阿里巴巴大數據產品最新特性介紹--機器學習PAI

時間 2019-11-12

原文原文鏈接

如下內容根據演講視頻以及PPT整理而成。算法

本次分享主要圍繞如下五個方面：網絡

PAI產品簡介
自定義算法上傳
數加智能生態市場
AutoML2.0自動調參
AutoLearning自動學習

1、PAI產品簡介與功能發展

1. PAI-Studio架構

在PAI的架構圖中，最下層的是PAI的計算框架和數據資源。PAI可支持MaxCompute、OSS、HDFS和NAS等多種數據資源。在數據資源和多種計算框架基礎之上，誕生出了PAI的最先形態：PAI-Studio——可視化建模實驗平臺，Studio中包括了兩百多種算法，覆蓋了數據預處理，特徵工程，模型訓練，評估預測等全鏈路的實驗流程操做。用戶可在PAI-Studio中以拖拽的方式構建實驗，而無需複雜的操做。此外，PAI內置了鯤鵬計算框架，可支持百億特徵，百億樣本的超大規模矩陣訓練。在最初創建過程當中，PAI-Studio的定位目標爲中級的算法工程師，即一個不須要很高的技術門檻就能夠上手使用的算法平臺。有了可視化建模Studio，PAI就能夠擁有爲用戶提供業務支持，如構建推薦系統、金融風控、疾病預測或新聞分類等的能力。框架

2. PAI-EASdom

然而，從Studio中算法和實驗的構建，到真正成爲用戶可用的模型服務，其中間還存在一個gap，即如何將模型部署爲在線服務。用戶通常須要耗費較大的精力在此之上。爲了解決這個問題，PAI平臺隨後推出了PAI-EAS模型在線服務功能，爲用戶提供EAS在線服務的一鍵部署功能，大大簡化操做，鏈接模型構建與生產服務。除了一鍵部署，PAI-EAS模型在線服務功能還支持版本控制、藍綠部署和彈性擴縮容等特性功能。經過PAI-EAS模型在線服務，用戶能夠方便的進行構建實驗，並將模型進行在線部署，最後應用到實際業務當中。機器學習

3. PAI-DSW工具

在PAI以後的發展過程當中，出現了新的需求，即有的工程師但願在整個實驗構建過程當中有更大的自主發揮空間。爲此，PAI推出了PAI-DSW版塊，其特色是使用notebook進行建模，PAI-DSW內置了Jupyter的開發環境，繼承了深度優化的TensorFlow，而且能夠可視化編輯神經網絡。由需求的初衷不難發現，PAI-Studio和PAI-DSW最大不一樣點就在於它爲擁有更多算法背景技術的工程師提供更大的發揮空間，所以適合於高級的算法工程師。性能

4. PAI-AutoLearning學習

在解決了高級、中級算法工程師的需求以後， PAI又進一步推出了專門爲初級算法工程師量身設計的全新PAI-AutoLearning功能（詳細功能特性會在下文介紹）。繼而，擁有不一樣的算法能力的工程師均可以經過PAI找到適合本身使用的產品類別。大數據

5. 智能生態市場

經過以上PAI的功能版塊，用戶能夠根據自身特色迅速找到適合本身的板塊，並快速部署服務到業務中去，但這些都是須要用戶自身來開發完成。隨着AI行業應用的不斷髮展，如何讓藉助他方的能力、智慧，來快速解決本身的業務需求，又成爲了一個新的問題解決思路。爲此，PAI推出了——智能生態市場功能版塊。用戶能夠在智能生態市場中尋找本身業務問題的解決方案（如模型、算法或者應用等），快速獲取能力，避免了沒必要要的開發人力資源的耗費。反之，擁有對應技術的開發人員或公司，又能夠在智能生態市場中一展才能，售賣發佈商品，並獲取相應回報及品牌。

2、自定義算法上傳

自定義算法上傳是PAI-Studio內的一個功能。機器學習在實際的應用過程中，有千萬種與行業結合的可能性和應用場景，用戶會有一些個性化的需求。儘管PAI-Studio爲用戶提供了兩百多種算法組件，但依然不能知足每個用戶的每個需求。經過自定義算法上傳功能，用戶能夠開發本身的算法組件，方便後續使用。

自定義算法上傳特性

自定義算法上傳包含三個特性。首先，自定義算法上傳功能兼容Spark生態，支持Spark和PYSpark框架，在這個框架下用戶能夠任意開發本身所須要的算法。其次，自定義算法上傳功能支持便捷發佈。爲了不在自定義算法發佈過程當中，花費的精力大於最終帶來的效率收益，PAI在自定義算法上傳功能設計的過程中，着重強調便捷發佈，提供分鐘級的算法發佈體驗。自定義算法上傳第三個特性是可視化配置。從上傳算法包，到真實的拖拉拽PAI-Studio中可以使用組件，其中還包含一個步驟，既配置組件的算法參數以及相關配置。PAI爲用戶提供了可視化的在線操做配置的方式。

3、數加智能生態市場

1.智能生態市場角色

智能生態市場是大數據和AI領域的一個淘寶平臺，其最大的做用是鏈接了開發方和業務方。在此以前，開發方有本身的能力和技術，業務方有需求和想要解決的問題。但兩方一直沒有辦法很好的鏈接在一塊兒，經過數加智能生態市場平臺，將開發方的技術和業務方的需求進行對接，兩方均可以經過平臺獲取利益。首先，開發方能夠打通產品快速發佈售賣，收穫品牌效益，同時掌握市場動態需求。另外，業務方能夠經過智能市場更便捷的獲取適合本身的業務解決方案。同時下降探索新業務的成本，還能夠擴展基礎事業，快速實現公司技術的優化。

以下圖，在智能生態市場鏈路出現之前，用戶只有兩種構建業務解決方案的途徑，一個是經過本身使用機器學習PAI來開發，其中包括實驗的構建、模型部署和應用等步驟；二是選擇行業ISV，ISV經過在行業中的經驗爲客戶構建出不一樣的，可部署在實際業務中的模型，解決客戶的業務需求。但這兩種方案的前者須要投入較大的人力成本，後者須要較大的財力成本。有了數加智能生態市場以後，用戶能夠選擇第三條平衡人力和財力成本的新途徑，經過向算法模型開發者購買最新的模型或者解決方案，解決本身的實際業務問題。這是加智能生態市場所創建的功能目標，以及它能夠爲客戶和開發者帶來的價值。

2. 數加智能生態市場的子版塊

數加智能生態市場包括四大板塊。首先，在市場板塊中用戶能夠進行大數據智能商品的買賣交易。既有業務需求的用戶能夠找到業務問題的高效解決方案，開發者能夠經過技術的傳播和共享，獲取回報和品牌效益。第二個板塊是培訓板塊，培訓板塊能夠提供市場相關平臺的使用指導和案例講解，爲用戶提供實用的培訓，快速上手大數據的智能業務，實現快速入門。第三個板塊是認證板塊，主要面向開發者同窗。在認證板塊中開發者同窗能夠獲取Apsara Clouder技能的認證證書，經過認證提高開發的專業技能，並得到官方資格的評定。第四個板塊是論壇版塊，大數據智能用戶以及相關興趣愛好者均可以在論壇相互交流，獲取最新的前沿技術和知識。

經過以上四個板塊，構建了一個有機生態圈。智能生態市場爲用戶提供培訓，爲開發的同窗提供認證。用戶和開發同窗之間經過市場創建互相買賣的交易關係，而且獲取各自的需求。同時三者之間能夠構成一個論壇的有機生態。

3. 商品發佈流程簡介

下圖是數加智能生態市場主界面。開發者經過主界面進行賣家入駐，填寫我的信息，提交審覈。經過審覈以後，賣家擁有了在市場上售賣商品的資格。賣家能夠進行商品發佈，首先選擇商品的種類，如發佈解決方案商品，輸入商品名稱，商品介紹以及來源渠道。在來源渠道里中填寫商品的跳轉連接，因爲解決方案商品屬於比較開放式的商品的類型，開發者能夠發佈本身相關的名片，方便更進一步的溝通和聯繫。此外，還能夠在數加智能生態市場中發佈算法商品。算法商品和自定義算法上傳功能是相通的。自定義算法上傳配置完以後有一個發佈按鈕，點擊發布按鈕就能夠發佈到數加智能生態市場。商品經過審覈以後，能夠點擊上架操做，上架操做完成以後頁面中生成一個商品的智能客服機器人，其中已經預置了商品的基本問答，在客戶想要來了解商品信息時，能夠經過智能客服機器人進行初步的商品信息獲取，若智能客服機器人沒法提供足夠的信息量，還能夠經過預留的釘釘號進行進一步的溝通聯繫。

4、AutoML2.0自動調參

1.AutoML2.0特性

AutoML自動調參功能是PAI-Studio中的核心功能。PAI-Studio能夠進行可視化的建模操做，但模型構建好以後，如何進行參數調整，並達到最好的實驗效果，是用戶常常面臨的問題。AutoML即以此爲目的，解決實驗的調參問題。AutoML2.0自動調參功能包含三大特性。首先是一鍵自動調參數，包括自動調整參數、模型評估和模型傳導。此外，AutoML2.0支持七種調參算法，如GritSearch、Random Search、PBT、Gause、Evolutionary等常見的調參算法。實踐證實，AutoML2.0能夠幫助用戶節省90%的工做量，大幅下降了用戶在創建機器學習模型過程當中所花費的時間以及人力成本。

2.自動調參實踐示例

在這裏，咱們選擇GBDT迴歸模型來進行調參，在自動調參的界面配置中選擇數據的拆分比例，一部分數據用於訓練模型，其他數據用於模型的評估。AutoML2.0如今可支持的七種調參方式，包括Gause、PBT、SAMPLE、隨機搜索、方格搜索、自定義搜索以及Evolutionary優化調參方式。這七種調參方式已經涵蓋了目前主流的調參方式。這裏咱們選擇Evolutionary 優化調參方式，下面須要配置Evolutionary 優化調參方式所須要配置的搜索的樣本數目，探索次數，收斂係數，定義參數範圍。配置結束後，便會自動生成模型，示例中一共生成了11個模型，那如何從11個模型中選擇最好的模型？自動調參頁面中爲用戶提供了選擇的標準，MAE，既經過MAE對生成的模型的質量高低進行排序，用戶能夠保存前幾名模型，進行進一步的操做。

以下圖，在自動調參詳情頁能夠看到屢次迭代以後，對模型效果的改善是很是直觀的。隨着迭代次數的逐步增長，模型的效果愈來愈好。縱座標是MAE值，MAE值越低，表明模型的偏差越低。隨着迭代次數上升，模型的質量也愈來愈高，這證實了AutoML調參功能的有效性。

5、AutoLearning自動學習

1.AutoLearning特性

PAI-AutoLearning自動學習功能是PAI最新推出的功能之一。在AutoLearning自動學習功能出現以前，PAI中的PAI-Studio，PAI-DSW分別爲中級算法工程師和高級算法工程師對應解決了他們的實驗構建需求。而PAI-AutoLearning則經過提供小白級、零門檻的一個工具，解決了初級或入門級算法工程師的實驗構建需求，使更多的人蔘與到機器學習，使用機器學習爲本身的業務帶來價值。AutoLearning自動學習功能有如下亮點。首先是零門檻使用，即功能開箱即用，對於小白同窗特別友好。其次是最低基於5張圖片就可進行一次學習。經過強大的遷移學習框架，PAI-AutoLearning可實現少許數據的有效學習，學習訓練的結果依然很是出色。第三個亮點是AutoLearning實現了一站式解決方案。一站式包括從數據標註、模型訓練、模型部署的整個過程，幫助小白用戶也能夠快速地入門機器學習的實際應用。

2. AutoLearning自動學習使用實例

在AutoLearning自動學習功能板塊，點擊從模板建立。模板建立是適用於新手快速入門的一個功能體驗，用戶能夠迅速的體驗到整個自動學習的功能特性。頁面中預置好了實驗中須要的訓練數據，如圖片分類實驗，數據集中包含不一樣的動物種類，經過訓練能夠生成準確識別動物種類的深度學習的模型。

首先，在深度學習訓練以前須要對深度學習算法提供有效的數據。有效數據須要對數據進行標註。所以，第一步是對數據的打標，AutoLearning自動學習板塊內置集成數據標註功能，幫助用戶快速的進入數據打標。第一步是在圖片中添加標籤，動物種類包括羊駝、馬和騾子，快速勾選同一類的動物，將其標記爲羊駝，馬或騾子。在開始訓練頁面中輸入訓練時長，訓練時長是決定最終模型訓練效果的一個關鍵的因素，訓練的時間則越長模型效果越好。Auto Learning板塊特點是能夠在短期內快速訓練出較爲精準的模型，只需十分鐘就能夠訓練出一個訓練分類效果不錯的模型。相比於傳統深度學習模型訓練這點的改進很是明顯。

此外，開始訓練頁面中另一個選項是增量訓練。增量訓練表示是否在原有的訓練模型基礎上繼續進行進一步的訓練。在模型訓練及評估界面，能夠看到訓練好的模型結果，模型指標包括準確率、精準率，召回率值，表示模型對當前的訓練結果的有效性程度。用戶能夠點擊上傳新的圖片，檢驗模型預測性能。那麼驗證好的模型該如何運用到實際生產當中去呢，Auto Learn ing自動學習功能已一站式業務構建流程，用戶在此界面可直接點擊前往EAS部署就能夠將模型部署爲服務，應用到實際的生產中進行產出。

原文連接

本文爲雲棲社區原創內容，未經容許不得轉載。