摘要:2019雲棲大會大數據&AI專場,阿里巴巴高級研究員賈揚清爲咱們帶來《大數據AI發展的新機遇和新挑戰》的分享。本文主要從人工智能的概念開始講起,談及了深度學習的發展和模型訓練,以及數據的爆發增加,着重闡述了算法、數據和算力的閉環。
直播回放 >>>算法
如下是精彩視頻內容整理:數據庫
做爲一個研究者的身份,在這麼多年AI的科研工做之中,有哪些有意思的事情?
說到人工智能,從十幾年前我開始作人工智能的時候,我當時認爲畢業可能就失業了,咱們永遠不會像作數據庫、系統、架構的人那樣容易找到工做。到了2012年以後,我發現人工智能可以找到工做了,不光如此,並且你們還很是想要人工智能方面的人才。從2013年開始,咱們經常從各路媒體口中聽到人工智能的將來已來。我如今仍然在作人工智能的研究,我認爲人工智能的將來也沒有那麼快到來。因此回想人工智能的這些東西,我一直在想,人工智能困難不困難?咱們對於人工智能困難程度的估計是怎麼樣的?服務器
經過翻閱歷史書我得知,最先提出人工智能概念的人是麥卡錫,這個預言是作什麼呢?讓機器使用語言讓它來解決如今還只有人可以解決的問題。最重要的一點,既然是一個智能企業,那麼它可以自我進化,你們以爲努力一個夏天,就可以取得重大的進展,這是1956年發生的事情。如今咱們知道,除了產生了一些人工智能的定義,剩下的什麼都沒有發生。網絡
到了1966年,咱們聽到一句話:咱們有很是好的想法,只差一個程序了。當時有一個教授提出了MIT的夏季視覺計劃,要有效的利用夏天實習生來搭建計算機視覺系統的核心來識別物體與背景,以及物體的種類。1966年的夏天過去了,什麼都沒有發生,1966年咱們沒有看到無人車,如今也沒有看到無人車。
爲何實現人工智能那麼困難?人的大腦在功耗上來講只有20W,一個手機是5W的功率,因此人能夠作很是多的事情,那麼,爲何實現人工智能要那麼困難?我最開始作人工智能的時候是從計算機視覺起家的,讓咱們大概來看一下計算機視覺在這幾年作了什麼事情。架構
2012年深度學習流行以前,計算機視覺各類方法都採起了簡單的特徵來解決問題,處理各類圖像,手工計算圖像猜想最有用的特徵是邊,因此咱們當時手寫了不少的算法,從圖片中拿一個小塊出來,算一下左邊的像素值是多少,右邊的像素值是多少,有差異就會有一個豎邊,用這樣簡單的豎邊、橫邊、45度邊等手工設計特徵來作圖像識別。
咱們顯然知道人在作圖像識別的時候,用這樣的特徵是遠遠不夠的,咱們看上面的這個圖,它多半可以有一點效果,可是用這樣的特徵來作自動駕駛系統,咱們不敢作,不知道你們敢不敢。機器學習
2012年開始提出了用更加深度的神經網絡和數據驅動的訓練來造成更加複雜的、相似於人的視覺系統的計算機視覺模型的想法。它的想法是說,模型像人的大腦同樣是分層的,個人收入經過每一層來提取更復雜的信息來造成抽象的概念,每一層神經網絡中間都有不少的參數,這些參數是經過大量數據訓練來造成的。這樣的深度學習方法可以給咱們帶來很是靈活的設計和很是多的不一樣領域的應用,從計算機系統到語音到天然處理,幾乎全部可以感知到的領域都可以用到深度學習來解決掉。深度學習是機器學習的一部分,並無像神經網絡那麼牛,可是在這麼多年之中,咱們發現並沉澱了不少很是好的算法,好比說決策數和線性模型,它們的計算量不須要有深度學習那麼大,可是它們在很是多的領域有很是棒的表現。工具
咱們在Flink之中實現特別多的淺層學習模型或者說傳統學習模型,今天不管是傳統學習仍是深度學習,尤爲是最近幾年的深度學習,給咱們帶來了算法上很是大的潛力。咱們回想一下,最開始手工設計的圖像特徵,咱們發現它最大的限制並不在於咱們可以處理多大的數據,有多大的算力,反而是咱們的算法自己就是簡單的。經過深度學習,經過其它的計算學習算法的進化,咱們的算法可以處理更多的數據,能夠學到更加複雜的決策,愈來愈多算法的複雜性就對算力提出了巨大的需求,這個提及來不太有體感,咱們仍是拿圖像來作一個例子。性能
深度學習系統或者說今天所提到的人臉識別、車識別、物體識別,都是基於深度神經網絡來作的。在2015年的時候,當時有人提出了一個Resnet模型,可以達到很是好的正確率。那麼,Resnet訓練一次須要在120萬張圖片之中進行10的18次方的計算。我當時有一次去倫敦的時候算了一下,若是全部倫敦的人每秒鐘可以算一次計算的話,全倫敦須要4千年來訓練模型。我們中國有人多的優點,但也不能這麼用。因此經過傳統的高性能方式,咱們能夠把大量的GPU經過高速的網絡互聯起來,讓這些GPU作兩件事情:一是每個GPU領一堆小圖片去算一下模型,看每一個參數應該怎麼樣進化,二是經過高速互聯,使得GPU能夠很快同步模型,肯定這個模型應該往這裏走或者往那裏走,這在傳統的高性能計算領域都有很是好的積累,因此今天咱們在阿里的平臺上經過Eflops+PAI能夠實如今3分鐘以內訓練出這樣的resnet模型。最初訓練深度學習的時候大概須要7天的時間,Resnet的計算量增長了10倍,在增長的基礎上還能夠經過軟硬件協同的方式,把訓練的時間從10天下降爲3分鐘,因此這就是AI系統和大數據結合所帶來的價值。學習
咱們剛纔說120萬張圖片的數據集,在實際的應用之中,咱們發現數據的數量是呈指數級的增加,並且是成千上萬倍差異的,拍立淘是阿里巴巴用來讓用戶用手機拍一個圖片來看在淘寶之中類似的圖片是怎麼樣的,拍立淘模型訓練須要一個PB左右的圖像,和如今的圖像相比,大了很是多,計算量也大了許多。在咱們今天有了大量數據的狀況下,不只是數據量給咱們帶來了很大的挑戰,並且數據的質量也給咱們帶來了很大的挑戰。咱們在實驗室當中作計算機視覺、語言、圖像等等工做的時候,這些數據是比較簡單的,咱們能夠想象一下怎麼樣存儲圖片?就是有一個文件夾放一個圖片在裏面就能夠了,可是在實際應用中,咱們在作推薦系統的時候,這些數據必定程度上是比較髒的,不是說它比較差,而是它自己須要大量的處理,不少核心推薦算法的來源是用戶購買的行爲,哪些行爲存在log裏邊,咱們須要來理解這個log,經過比較複雜的數據鏈路來清洗數據,因此咱們說算力算法數據的合成是AI的三個要素。測試
咱們在講AI的時候會提到算力算法和數據的閉環,可是其實90%的工做是在算法以外的,或者說數據算力以外的,咱們在考慮AI系統的時候,谷歌在十幾年前就提出了這樣的理論,機器學習這件事情就像是一個高息的貸款,最開始以爲很是美好,可是在實際落地的時候,咱們須要付的利息或乾的事情是很是多的。
我在Facebook工做時,作過手機端的深度學習的訓練,手機端的學習是很是多的,模型的壓縮、模型的部署、運行速度調優等一系列的東西。有一天早上8點鐘我到了辦公室,看到有些同窗在他的桌子上放了一個測試的手機,它的背後貼了一個小貼紙,貼紙說:昨天還好好的,今天發現從新訓練的模型不對了。不少作過深度學習的同窗有這樣的感受,今天咱們在作深度學習的部署和推理的時候,其實不光是跑一個GPU跑一個訓練那麼簡單,從最開始如何來設置咱們的模型和數據輸入的鏈路,數據怎麼樣去提取特徵,到後面怎麼樣來管理資源,最後怎麼來部署,怎麼樣來管理本身在模型上的想法等等,這是一個很是大的系統工程,不光是說我拿一個CNN的算法放在手機上就好了,今天AI在要落地的時候,不光是有算法,而是要有一系列系統工程的內容。
大數據和AI峯會就是想要給你們分享咱們在處理大數據和AI的時候所遇到的問題,所想到的一些心得,所沉澱下來的方法論和可以給你們提供的一系列工具和想法。
飛天大數據平臺和AI平臺是支撐阿里巴巴全部的應用,咱們也和社區、合做夥伴有很是緊密的聯繫。今天由我拋磚引玉的簡單講了講一些想法,我但願在各位嘉賓的分享之中,可以更加詳細的和你們探討大數據和AI在未來的走法,咱們應該怎麼樣把算法、數據和算力的閉環真正和產業結合起來落到實處去,這是我想要給你們分享的內容。
詳細瞭解飛天大數據平臺&飛天AI平臺核心產品
EB級雲智能數據倉庫 MaxCompute
一站式大數據智能開發雲平臺 DataWorks
實時計算雲原生版本
在PAI平臺,快速便捷擁有云端PyTorch體驗
開源大數據生態 E-MapReduce
雙11福利來了!先來康康#怎麼買雲服務器最便宜# [並不簡單]參團購買指定配置雲服務器僅86元/年,開團拉新享三重禮:1111紅包+瓜分百萬現金+31%返現,爆款必買清單,還有iPhone 11 Pro、衛衣、T恤等你來抽,立刻來試試手氣:https://www.aliyun.com/1111/2...
本文做者:晉恆
本文爲雲棲社區原創內容,未經容許不得轉載。