歡迎你們前往騰訊雲+社區,獲取更多騰訊海量技術實踐乾貨哦~算法
本文由 騰訊雲AI中心發表於 雲+社區專欄郭律,騰訊高級產品經理,騰訊雲AI基礎產品中心高級產品經理、解決方案架構師。主導騰訊智能鈦TI-ONE(可視化機器學習平臺)和TI-S(自動機器學習平臺)兩個產品的設計工做。從上海交通大學模式識別與智能系統專業博士畢業後,前後就任於IBM、普華永道從事IT架構、諮詢方面的工做,對機器學習與金融、零售等業務場景的結合具備深入理解,幫助學員掌握如何利用工具解決實際業務中面臨的機器學習問題。網絡
衆所周知,現階段的人工智能特別熱門,研究人員也都想進入到這一領域,人工智能到底是什麼?咱們有一個形象的比喻來講明什麼叫作人工智能。架構
人工智能是這樣,把米煮熟成飯的過程就是機器學習的過程,米是大數據,而飯就是人工智能。歸納爲一句話就是,將海量數據經過機器學習的手段來進行處理最後造成模型的過程就是人工智能。說到具體的例子,阿爾法狗的海量數據來自於各類各樣的棋譜,經過機器學習成爲一個下棋的人工智能。框架
機器學習提及來是一個詞,其實背後有不少的事情要作,好比預處理、特徵抽取、數據建模、模型評估等等。在建模過程當中,除了調參選算法以外還有不少重要環節。在這個過程中比較重要的一環是特徵工程,一個模型好很差取決於特徵工程作的好很差。機器學習
人工智能爲何這麼火?相比於傳統的商業智能(BI),人工智能更加精準。,以往的商業智能實現了對大數據的分析和處理,不一樣之處在於BI主要是經過人對數據的規則進行發現,AI是經過機器對數據的規則進行發現。咱們同行裏面有一個專家曾經說過,當規則超過1千萬條,機器是能夠超過專家的。這句話就是講機器學習的特色就是精準。工具
AI經過機器學習挖掘數據裏面的規則,效果比人作的更精準,而想用AI解決問題有4個約束條件。學習
第一個條件是業務場景。咱們現階段的人工智能不是強人工智能,並不能像科幻電影裏同樣能夠解決任何問題。可以用機器學習解決問題的前提之一,是把業務問題轉化爲機器學習的建模問題,這樣的問題能夠用AI解決,因此業務場景是特別重要的一點。大數據
第二個條件是海量數據。咱們如今的機器學習,其原理是基於統計來學習數據中的規則。咱們根據數據歷史,基於統計發現其中規律,而後再將這些規律用於將來的數據預測。在歷史數據裏發現規則,須要海量的數據,這些海量數據應該是特徵豐富、不重複,高質量的數據。優化
第三個條件是人才。這涉及到作算法人才、把算法在工程中實現的人才、產品化的人才以及將AI和業務系統集成的人才,這些人都屬於AI人才。ui
第四個條件是技術能力。包含了計算資源、存儲、網絡以及和業務系統的集成。AI若是不能跟企業業務系統集成在一塊兒是沒有業務價值的。
剛纔說的是機器學習的4個要素,接下來舉例說明這4個要素在不一樣場景當中的體現。
在風控領域,海量數據包括客戶交易數據、黑名單數據、客戶數據、客戶帳戶數據等等。這些數據都爲咱們提供各類維度的特徵。咱們用AI作風控,例如用AI判斷信用卡交易是否是欺詐交易,或者信用卡催收時,判斷一個客戶的還款意願是否強烈,這些問題能夠轉化爲迴歸或者是分類問題。用這樣的方式,把金融風控領域裏的一些業務場景轉化爲一個系列具體的、能夠經過機器學習建模來解決的技術問題。
在營銷領域,海量數據包括客戶畫像、客戶行爲,商品目錄,營銷活動數據、營銷成果數據(如歷史上把某一類商品推銷給某些客戶,成功或者沒有成功)等等,咱們把這些數據送給機器去學習,哪一種商品推給哪類客戶比較容易成功,哪一種不容易成功,這是咱們要作的事情。具體到業務問題,例如說沉睡喚醒,在銀行和電商有不少客戶都存在開戶後可能兩三年再也沒有業務的狀況,就屬於沉睡客戶,若是經過一些推銷手段,如給你發短信或者推薦促銷活動,看能不能讓客戶從新在銀行或電商活躍起來;又如商品個性化推薦,不少人在京東買手機之後,京東會推薦手機膜、耳機、儲存卡等商品,這些推薦會根據其餘用戶選擇或該用戶購買歷史以及跟該商品有關聯的其餘商品作推薦。
在健康領域,海量數據包括患者的行爲數據、處方數據、病史數據等等,用這些數據作疾病預測,例如糖尿病預測,根據病人的數據預測兩年或三年之後得糖尿病的機率,就是AI的一個應用場景。
最後一個場景AI加製造,在不少工廠裏面也須要,用AI改善工藝流程或者下降成本,在這裏海量數據會包含機臺參數(每個不一樣的設備加工時的輸出參數)、工藝流程數據,場景包括經過機器學習作一些智能測量以解決在某些人到不了的狀況下須要作檢測的問題。
在不一樣的業務場景裏面,AI數據和AI業務問題具備多樣性。可是相對而言AI人才(包括建模和工程人才)和AI的計算資源和計算能力是通用的,各場景的建模過程大致上也差很少。
同時AI人才和計算能力又是有層次的,AI從理論研究到可以應用到工程中須要經歷4個層面,最貼近業務的一層是模型,而後是算法,業務問題提出後在算法層面調試得到模型,模型不不能直接使用,如何打造數據閉環,須要在工程層面或者產品層面去實現。至於計算框架和計算資源層,模型訓練還有不少工程方面的問題須要解決,包括算法與數據源集成、訓練的日誌和錯誤監控、任務調度等等。這些問題和業務相關度較小,但技術難度又很大,實施週期長,給傳統企業使用AI、擁有AI能力形成了必定的困難。
咱們把AI的人才按照成熟度的不一樣分紅4類:第一種是AI Geek,從底層計算資源搭建到計算框架的引入,一直到上面的算法編寫,包括模型的調優,一我的能夠作完,這種人很是的稀缺,效率不必定高,由於全部工做都要重頭作。
第二種是AI研究者,他們對某類算法很熟,他們本身會寫比較高級的算法。可是他們可能對底層的計算框架,好比說GPU怎麼管理,不是很清楚,只要把算法寫好就能夠了,底層交給工程人員,這屬於AI的研究者。
第三種是AI的從業者,在座的同窗大部分在這個層級上面,這一塊的特色是:知道整個建模的流程;也可以用一些開源的算法作模型訓練,但願可以有一個比較好的機器學習UI,不須要從框架上或者每個交互都須要一個命令行來建模。
最後一種是AI的應用人員,但願直接拿到發揮做用的模型,不關心模型的原理,但願的是可以從業務數據直接獲取一個模型來解決業務問題。
根據以上這麼多用戶層次的差別性,咱們須要針對不一樣用戶訴求提供差別化的方案、產品和服務。
先從最底層提及,針對AI研究人員須要提供計算資源、任務的調度、計算資源的管理,他本身寫算法。
第二類是AI從業者,AI從業者須要本身建模,對算法作少許改動。另外他們關心模型建好之後,如何與業務系統集成,數據閉環如何實現。數據閉環是爲了防止模型衰減,保證模型上線後可以迭代訓練以保持效果,這也是這個層級的用戶會關心的事情。
再往上一個層級就是AI應用者,AI應用者須要模型自動訓練、自動數據分析、自動特徵工程,模型訓練完成後自動佈署爲服務。最好還可以對模型微調,就是加一些數據,能夠適應新的場景。
咱們針對不一樣層次的客戶提供差別化的產品,最左邊的TI-A是深度學習加速器,主要是作模型訓練加速,咱們的速度很快,在雲上面使用TI-A平臺,能夠幫助用戶實現深度學習訓練的加速。並且這個模型訓練完之後,它能夠一鍵部署,這也解決了模型訓練完之後怎樣能夠應用到業務場景裏,怎樣作預測的問題。
中間的產品TI-ONE,是智能鈦一站式機器學習平臺,它有一個可視化的UI,用戶能夠一目瞭然看到整個建模的工做流,能夠看到數據的流轉關係和各環節的依賴關係,這個產品可讓用戶方便地建模,並且裏面有不少內置的算法。
最右邊是TI-S,它的特色是全自動、黑科技,不須要用戶建模,只須要給它數據,就能夠反饋給你一個可用的模型,真正一鍵建模,模型訓練完後可以部署成一個應用。
接下來咱們仔細來看一下智能鈦產品具體都有哪些功能。在TI-ONE裏面支持機器學習、深度學習和模型推理,機器學習裏面包含了數據加載、預處理、特徵工程、特徵選擇的工具,後面還有一些具體的算法。深度學習裏面包含了一些已經寫好的神經網絡的算法,針對一些業務的場景也有一些封裝好的、針對這個業務場景的算法,例如機器視覺的算法,天然語言處理等等。
在模型推理部分,對於機器學習訓練出的模型,後續處理包括模型部署、模型管理、模型監控、模型驗證等等。
TI-A相對比較簡單,含有一些深度學習的神經網絡庫和模型推理的功能,UI採用輕量化的客戶端,用控制檯支持模型和任務的監控。
TI-S的模型訓練、部署都是自動化在後臺運行,用戶只須要把數據傳上去,TI-S自動完成數據處理,特徵工程,算法選擇和參數優化。
智能鈦平臺下降企業得到AI能力的門檻:框架方面,智能鈦平臺內置衆多主流框架,省去用戶本身集成框架的工做;算法方面,因爲有內置算法,省去用戶不少寫算法的工做;模型調優方面,智能鈦平臺的圖形界面能夠幫助用戶作算法調優,有比較靈活的調度和調參方式;在模型管理方面,智能鈦平臺能夠幫助用戶搭建數據閉環,數據閉環只有在本身搭建的算法訓練出的模型上才能實現,直接購買的AI應用一般不支持數據閉環;協做方面,智能鈦平臺支持團隊的模型分享、算法分享。
以智能鈦爲核心,企業還能打造開發者生態,在這個平臺上面開發應用,開發者能夠省去不少底層比較辛苦的工做,並且能經過這個平臺來實現模型的閉環。另外,騰訊有比較強大的技術能力和算法服務,也有比較豐富的數據服務,能夠幫助開發者作出更好的AI應用。雲平臺底層有比較豐富的計算資源,AI開發和運轉須要大量計算資源。
這個圖是模型自更新的框架圖,自建AI模型很難,因此不少企業願意直接購買AI應用,但當出現如下幾種狀況的時候,就必須自建模型。第一,若是你須要解決的問題場景比較獨特,而不是一個簡單的人臉識別、語音識別,例如在不少製造型的企業中,生產流程中須要測量的值比較獨特,這種狀況下只能本身建模型。第二,數據比較獨特,並且你也不肯意把數據公開。建模須要大量數據,例如剛剛講的AI語音識別中,由於沒有方言的語料,就沒有很好的方言識別模型。那麼若是你須要一個AI模型,而這個模型須要廠商來幫你訓練,那你至少得把相應的數據給他。可是有一些你本身公司內部的應用數據,別人買不着,你又不肯意拿出去,這個時候就得本身建模。第三,模型須要不斷自更新,自更新在不少場景下都是很重要的,由於模型會衰減,因此須要增長新的數據以適應新的狀況,本身建的模型,首先這個數據是本身的,經過一個標註平臺進入訓練平臺,平臺都在你本身的機房裏面,這邊的模型所有都是在平臺計算出來的。經過平臺和業務系統數據總線打通之後,實際上能夠造成一個模型的閉環和數據的閉環,就知足一個模型自更新的要求。
關於平臺的應用案例:咱們這個平臺目前的案例包括:金融領域的風控,營銷以及基於NLP、OCR實現運營優化等等;教育領域和高校或賽事舉辦方合做,以平臺爲基礎來提供比賽的環境以及教學環節等等;商業領域方面,幫物業公司實現物業管理的服務水平優化;工業領域方面,幫地鐵公司對軌道、車輛設備作異常檢測。以上這些場景大多比較特殊,只能經過機器學習平臺本身訓練這樣的模型。
Q&A
Q1:騰訊的AI定義是什麼?從最先的AI識別,到大數據系統,建模放在AI當中,如今更多的是講深度學習和機器學習,我不太清楚。
A1:語音包括小微都屬於AI應用層面,AI應用底下靠什麼來承載,就是AI的平臺和框架,以及再往下的計算資源。咱們這個平臺定位的是AI基礎平臺,它就是一個建模的工具,能夠提供的是機器學習和深度學習的建模所須要的工具。
Q2:機器學習在原理上沒有變化?用matlab能不能訓練機器學習和深度學習模型?
A2:機器學習在原理上沒有變,深度學習是神經網絡演化出來的,神經網絡層數變大之後變成了深度學習學習,用matlab訓練模型從原理上和算法上來說是沒有問題的,可是從思路上來講,如今機器學習的思路跟之前不同的地方,之前是降維,由於計算能力有限,如今都是升維。如今隨隨便便一個神經網絡幾十層,計算量都是很大的,這就是爲何深度學習須要用GPU的緣由,用matlab訓練的話計算能力會有問題,訓練不出來。
問答
機器學習和人工智能在工業4.0時代有什麼具體應用?
相關閱讀
王珺:智能音箱語音技術分享
人工智能、機器學習、深度學習,三者之間的同心圓關係
易圖秒懂の人工智能誕生
【每日課程推薦】機器學習實戰!快速入門在線廣告業務及CTR相應知識
此文已由做者受權騰訊雲+社區發佈,更多原文請點擊
搜索關注公衆號「雲加社區」,第一時間獲取技術乾貨,關注後回覆1024 送你一份技術課程大禮包!
海量技術實踐經驗,盡在雲加社區!