騰訊雲機器學習平臺TI-ONE

點擊觀看大咖分享

據《中國ICT人才生態白皮書》研究分析,2018年末,我國人工智能人才缺口已突破100萬,到2020年,這一數字將攀升到226萬。但全球367所具備人工智能研究方向的高校每一年在該領域畢業的學生僅約2萬人,遠遠不能知足市場需求。git

人才缺口大,騰訊雲發佈超新星AI人才培養計劃,深耕高校教育生態。做爲該計劃中惟一的機器學習平臺,騰訊雲智能鈦TI-ONE走進高校課堂,受到了老師和同窗們的喜好。算法

不管您是AI出入門者,仍是AI專家,在智能鈦機器學習平臺上,都能找到適合您的建模方式。sql

本次騰訊雲大學大咖分享課程邀請 餘祖坤 騰訊雲高級產品經理 分享關於「騰訊雲機器學習平臺TI-ONE」課程的內容。開啓雲上機器學習建模之旅,與智能鈦TI-ONE來一場浪漫的邂逅吧!編程

本次分享主要包括三個部分:TI-ONE產品架構;TI-ONE產品特性;使用TI-ONE搭建模型。網絡

1.TI-ONE產品架構

1.1機器學習概述

機器學習經過學習輸入的數據來構建模型,以對將來的新輸入信息作出預測或識別。架構

機器學習就比如燒飯,將大米(數據)放入電飯煲(機器學習),選擇不一樣的烹煮模式(不一樣的算法),最後獲得米飯或者粥(不一樣的模型)。app

目前,機器學習已經擁有普遍的應用場景,如圖像識別、金融風控、智能投研、精準推薦、疾病診斷、工程檢測等等。框架

1.2傳統機器學習與深度學習

傳統機器學習表現爲完整的流水線,包含如下幾個環節:機器學習

1.數據獲取:從數據源接入數據,用於後續的算法訓練。分佈式

2.數據預處理:如缺失值處理、數據格式處理。

3.特徵提取:在原始數據的基礎上提取出會對訓練結果有幫助的值的過程,這個過程很大程度上依賴建模人員的經驗,尤爲是對業務的理解。

4.特徵選擇:選擇好的特徵,加入到模型訓練過程當中。

5.選擇算法:模型的搭建能夠選擇不一樣的方法,如隨機森林算法、決策樹算法、支持向量機算法等。

傳統機器學習的特色是:特徵選擇須要人工參與。而深度學習在其衍生以後,特徵選擇過程能夠經過神經網絡來完成。

今天咱們課程所說的機器學習,指的是廣義的機器學習,包括了傳統機器學習和深度學習。

1.3機器學習建模過程

過程:用戶數據-數據預處理-特徵工程-機器學習算法-模型評估-生成離線或在線的服務。

生成的模型好很差,須要有方法去評估,好的模型要生成離線或在線的服務進入到實際的應用,整個過程須要大量的計算資源支持。

智能鈦TI-ONE提供以上環節的全流程算法開發及部署支持。

1.4機器學習平臺價值主張

前面咱們已經瞭解了機器學習概念,知道了機器學習搭建模型的整個過程。如今談下機器學習建模時算法工程師有兩種選擇:

一種是自建,使用框架建模,如Caffee、PyTorch、TensorFlow等。

另外一種是直接使用機器學習平臺,好比智能鈦TI-ONE。

咱們能夠看下這二者的區別:

框架角度

對於自建,每種框架都須要安裝、部署在機器上,並進行相應的維護。同時每種框架都有不一樣的版本,兼顧維護各個框架版本的依賴環境就是一筆時間開銷。

對於智能鈦TI-ONE,咱們已經將框架集成到平臺,而且調試好了,提供的是平臺級的算法建模服務,「開箱即用」。

算法角度

對於自建框架的用戶來講,須要不斷從開源社區去找一些算法拿來使用,也會涉及到對算法bug的一些修改工做。

對於智能鈦TI-ONE,咱們已經將用得比較多的算法調試好,部署在平臺上,用戶能夠直接托拉拽、notebook或經過SDK的方式使用。一些些工程性的建模支持服務,平臺已經爲算法工程師準備好,工程師可將注意力徹底集中在模型搭建上。

模型角度

對於自建,不一樣的框架有不一樣的特色,包括模型的搭建和部署,工程師熟悉一個框架以後還會有另外一個框架,存在上手門檻。

對於智能鈦TI-ONE,平臺作了封裝,變成頁面可視化操做,能夠簡化模型全生命週期的使用過程。

評估角度

對於自建,使用框架,你須要本身編碼把數據打印出來,才能看到模型效果。

對於機器學習平臺,能夠實時動態可視化評估模型效果。

協做角度

對於自建,經過監控腳本,爲單獨運行的任務增長監控,自行發現並處理異常。經過拷貝代碼或者git的方式分享算法。

對於智能鈦TI-ONE,多種監控配置,具有完善的告警體系。支持發佈算法和模型,可控分享粒度和級別。

1.5用戶定位

AI是個大趨勢,各行各業都有應用AI的需求,目前來看,有算法建模產品需求的用戶愈來愈多。咱們考慮的是:

算法初學者如何快速上手,利用算法創建AI模型,創建入門的信心?

算法新手,雖然有必定經驗,如何下降使用門檻,提升建模效率?

算法專家,可能在性能和分佈式算力需求上有更高的要求?

智能鈦TI-ONE針對以上三種類型的用戶,都提供了適配的解決方案。

1.6TI-ONE產品架構

資源層

數據存儲上,支持多種存儲方式,如分佈式文件系統HDFS、CEPH,對象存儲COS、文件存儲CFS。計算資源上,具有大量雲上計算資源,同時支持本地算力。

調度層

雲上建模有大量用戶,有大量計算集羣,不一樣的訓練任務須要有分佈式調度工具。分佈式資源調度套件,採用的是騰訊自研的資源調度平臺,可以支持大型的雲集任務。

框架層

支持Spark、TensorFlow、Angel、PyCaffee、Pyspark、Pytorch等主流機器學習框架。

算法層

支持上百種機器學習算法,包括傳統機器學習算法、圖算法、深度學習算法,且在不斷豐富中。

交互層

三種不一樣的交互方式,知足不一樣的用戶羣體。

可視化建模

托拉拽方式搭建工做流,簡單易上手,適合AI小白。

Notebook

交互式的數據探索和建模過程,適合有必定算法基礎的人羣,提供更大的靈活性。

SDK

更適合建模專家使用,提供更大的粘合度。

1.7機器學習平臺TI-ONE邏輯架構

TI-ONE採用經典的分層架構模型,從上到下分別是交互層、TI內核引擎層、算力層和存儲層。

交互層對外提供了不一樣的產品形態,包含DAG拖拽式建模能力,AutoML自動建模和Notebook交互式編程等不一樣的交互方式。

內核引擎主要包含了核心的訓練調度引擎和模型服務引擎,是TI-ONE的核心能力,具有了高可用和高擴展性的特色,並經過插件化的方式支持用戶自定義算子,對接多種算法框架,支持不一樣的調度方式(並行、串行和週期驅動等)。

算力層是底層計算集羣的抽象,支持常見的算力集羣資源(GaiaStack/K8S/Yarn),並很容易擴展支持其餘算力資源。內置的算法都針對算力作了優化,支持單機和分佈式訓練。

存儲層抽象了不一樣的數據源,目前TI-ONE支持COS、HDFS、Cephfs、本地文件和各類JDBC的數據源(GPHiveKuduImpala Mysql等)

2.TI-ONE產品特性

2.1特性概覽

2.2拖拽式任務流設計

可視化拖拽

數據、算法、組件都可以直接拖拽,所見即所得。

節點自動連線

自動連線,數據輸入輸出自動生成,簡單高效。

自由繪製工做流

自定義工做流,可多個模型並行訓練,事半功倍。

2.3運行模式靈活

支持根據運行資源進行調度策略的設定,包含並行、串行。

11.png

支持參數設定,提供數值型、枚舉型的參數運行設置。

支持週期性調度。

支持歷史實例的詳情查看,模型對比,續跑。

2.4支持多種機器學習框架

覆蓋Spark、TensorFlow、 PyCaffe、Pytorch以及騰訊自研Angel框架,提供多樣化框架支持。

AI建模場景不少,若平臺內置的算法不知足您的使用需求時,可使用自定義框架,上傳本身的腳本建立模型。

2.5可視化分析

支持中間結果預覽,能夠查看工做流中間節點的數據輸出狀況是否符合您的預期,作到建模時心中有數。

豐富多樣的圖表展示形式;多種模型評估方式;圖表懸浮便可呈現。

2.6交互式建模Notebook

Notebook 做爲一個靈活的交互式開發工具,很是適合於數據準備、數據處理、算法調試與模型訓練。平臺對Jupyter Lab進行了封裝,在保留原有的交互特色上,增長了資源監控特性,可監控任務的資源消耗狀況。

2.7AutoML自動調參

支持機構化數據自動調參建模,在不經過人爲來設定參數的狀況,經過某些學習機制,讓系統智能地去調節這些超參數,讓整個機器學習訓練流程作到自動化。而且支持實時監控訓練進度,分析自動調參詳情。

2.8模型管理

模型倉庫頁面用於管理全部保存的模型。支持如下功能:

ž 對每一個模型進行版本控制和切換。

ž 經過自動生成的 TAG 對模型進行篩選。

ž 建立基於模型的離線批量預測做業。

TI-ONE 將來也會整合雲上的推理服務,後續將推出模型一鍵部署到 TI-EMS 等功能。

2.9全生命週期建模任務支持

回顧一下:想要創建一個模型,首先須要將數據接入,對數據進行一些處理,選擇合適的算法構建模型,開始訓練模型,模型訓練完成後評估模型的效果,好的模型保存到模型倉庫,同一模型能夠保存不一樣的版本在模型倉庫,選擇合適的模型合適的版本發佈成在線服務。

接下來就是應用端調用模型,調用一段時間後,能夠看一下模型的效果,若效果很差,能夠調整訓練的數據、算法、參數等,對模型進行優化,而後再從新發布新的模型,進入下一個週期。能夠看出:完整的建模包含的全部環節,都在TI-ONE平臺上獲得了支撐。

3. 使用TI-ONE搭建模型

接下來你們能夠嘗試在TI-ONE平臺上使用可視化托拉拽的方式搭建模型。

在開始使用智能鈦TI-ONE前,需完成【註冊與開通服務】,具體能夠參考官方產品文檔:https://cloud.tencent.com/document/product/851/39086

3.1泰坦尼克號生存預測模型

可視化工做流建模實踐

背景:

1912年4月15 日,載着1316名乘客和861名船員的豪華巨輪泰坦尼克號與冰山相撞而沉沒。這場海難被認爲是20世紀人間十大災難之一。1985年,泰坦尼克號的殘骸在北大西洋兩英里半的海底被發現。

1998年欣賞過好萊塢巨片《泰坦尼克號》,影片震撼的效果、惟美的畫面和男女主人公悽美的愛情,曾一度引起青春的騷動。時隔多年,作爲一個數據分析的入門學習者,從數據分析的角度來看待這場災難,是否會有新的感觸? 在災難發生時,因爲沒有足夠的救生艇給乘客和船員,能倖存下來的人是有必定的運氣因素,但仍然多是一些人比其餘人更有可能生存。那麼是什麼樣的人更可能在這場災難中存活下來?存活下來的人都有哪些特性?這些特性在其餘災難現場是否也有助於生存?將以泰坦尼克號沉船事件爲背景,利用乘客的多維度數據搭建模型,判斷泰坦尼克號沉船事件中該乘客是否能夠獲救。您根據後續每一個步驟進行演練,便可體驗在 TI-ONE 控制檯創建併成功運行工做流的全過程。

目標:

預測什麼樣的人在泰坦尼克號撞擊冰山後更容易存活?

關於該模型的搭建步驟請查看官方文檔:https://cloud.tencent.com/document/product/851/19069

3.2文本情感分類

可視化工做流建模實踐

背景:

文本分類是天然語言處理中一項基礎且重要的任務,其應用場景很是普遍,涵蓋金融、商業、軍事、政治等多個領域,例如:輿情監測,新聞分類、新聞極性分析、垃圾郵件識別、用戶情感分析。文本分類模型具備重要的應用價值與商業價值,例如,商家能夠經過判斷用戶對商品的情感態度,調整進貨策略以提高銷售額。

現有的文本分類算法主要包括兩大類,分別是基於傳統機器學習的方法和基於深度學習的方法。基於傳統機器學習的方法經過預處理、特徵提取、向量化以及常見的機器學習分類算法對文本進行分類,經常使用的算法包括 LR、SVM 等,模型效果受到特徵提取質量的影響。基於深度學習的方法則是經過深度學習模型對數據進行訓練,經常使用的算法包括 FastText、LSTM 等,模型效果主要受數據量以及迭代次數的影響。

目標:

利用 FastText 算法搭建深度學習文本分類模型,解決文本分類場景下的實際問題

關於該模型的搭建步驟請查看官方文檔:https://cloud.tencent.com/document/product/851/35128

3.3使用TensorFlow實現鳶尾花分類

基於框架運行自定義代碼建模

背景:

智能鈦機器學習平臺的 Tensorflow 框架爲用戶提供了基於 Python API 的 Tensorflow 運行環境,用戶可將編寫好的腳本及依賴文件上傳至框架進行算法訓練。咱們將以鳶尾花分類任務爲例,向用戶演示,如何利用智能鈦機器學習平臺的深度學習框架 TensorFlow 運行自定義代碼,如何經過工做流頁面向自定義代碼傳參,如何查看代碼日誌/報錯信息等。整個工做流運行耗時僅幾十秒,訓練完成後您可進行模型服務部署和在線測試。

目標:

使用自定義框架實現鳶尾花花朵分類任務

關於該模型的搭建步驟請查看官方文檔:https://cloud.tencent.com/document/product/851/38592


問卷

爲了給廣大開發者提供最實用、最熱門前沿、最乾貨的視頻教程,請讓咱們聽到你的須要,感謝您的時間!點擊填寫 問卷

騰訊雲大學是騰訊雲旗下面向雲生態用戶的一站式學習成長平臺。騰訊雲大學大咖分享每週邀請內部技術大咖,爲你提供免費、專業、行業最新技術動態分享。

相關文章
相關標籤/搜索