真正跟賈揚清近距離接觸後筆者發現,這位被不少人稱爲「AI 架構大神」的 80 後青年科學家,更像一位溫柔且平易近人的鄰家「學霸」,雖然技能全面碾壓但絲毫沒有架子。加入阿里以來,賈揚清一直忙於瞭解集團覆蓋範圍極廣的各項產品和業務,近兩個月纔開始在一些重要活動上以新身份亮相。他在訪談中直言,阿里很是大、方向很是多,短短几個月還未能所有了解完。雖然離職時多家媒體均報道賈揚清的 base 地是阿里硅谷研究院,但因爲團隊基本都在國內,賈揚清加入阿里後在杭州待的時間更多。新的身份給他帶來了不少挑戰,忙到沒時間理髮、一個月倒三次時差、參加活動大半天沒吃上飯。但身爲阿里集團副總裁的同時,賈揚清依然是典型的技術人,在聊到他最熟悉的 AI 技術和平臺時會由於興奮而語速加快。前端
在此次訪談中,賈揚清向咱們透露了他加入阿里的緣由,並對他目前在阿里主要負責的工做作了詳細說明,他不只回顧了過去 6 年 AI 框架領域發生的變化,也分享了本身對於 AI 領域現狀的觀察和對將來發展的思考。結合本身的經驗,賈揚清也給出了一些針對 AI 方向選擇和我的職業發展的建議,對於 AI 從業者來講有很多可借鑑之處。算法
被內部稱爲「阿里計算平臺掌門人」的賈揚清目前直接領導阿里雲智能計算平臺事業部,而計算平臺事業部同時負責大數據和人工智能兩大平臺,其中大數據方面包括 Flink、Spark 以及從阿里本身作起來的 MaxCompute 大數據平臺,人工智能平臺則包括底層資源管理、中間層 AI 框架開發等一系列工做。編程
相比原來在 Facebook 所負責的 AI 框架和 AI 平臺相關工做,賈揚清如今在阿里所負責的工做範圍更加寬泛。用賈揚清本身的話說,原來在 Facebook 他更可能是大數據的用戶,只是在 AI 訓練的時候須要大數據平臺提供支持;而在阿里計算平臺事業部,他須要同時支持人工智能和大數據這兩塊。在賈揚清看來,阿里雲智能計算平臺事業部是全球少數的幾個把大數據和人工智能放在一塊兒的部門,但他認爲大數據和人工智能自己就是緊密結合的,所以這兩塊放在一個事業部作很是有道理。性能優化
過去幾年深度學習得以快速發展,很大程度上要歸功於數據,而今天的人工智能在必定程度上其實能夠說是「數據智能」,即 AI 須要大量的數據纔可以提煉出來咱們所謂的模型。因而,大規模人工智能能夠概括爲兩種計算模式,第一個是「智能計算」,就像 AI 工程師熟知的訓練、模型迭代等,另一個是「數據計算」,就是怎麼樣把大量的數據灌到人工智能訓練和推理的鏈路裏面。「數據計算」是大數據一直以來擅長的事情,把這兩個計算結合到一塊的時候,大量的數據處理跟高性能的數據鏈路,再加上如今人工智能的算法、高性能計算等一系列技術,才能把整個的解決方案給作出來。從這個角度來講,賈揚清認爲人工智能跟大數據是天生結合在一塊兒的。網絡
除了技術範圍不一樣,從 Facebook 到阿里巴巴也給賈揚清帶來了另外一個新挑戰,那就是崗位角色的變化。早期仍是研究員的時候,賈揚清只須要關注技術,後來升任 Facebook AI 架構總監後他轉型技術管理,到如今成爲計算平臺事業部總裁,賈揚清須要管理技術、產品和業務,後二者對於他來講是更大的挑戰,但也是頗有意思的挑戰。賈揚清告訴記者:「就像開源要商業化落地同樣,技術最後也須要通過產品和商業的錘鍊,這是必定程度上我來阿里的緣由。另外,雲原生接下來是整個 IT 產業大勢所趨的方向,在雲上,技術確定會有新一輪的進化,這個時候對於我來講是接受新挑戰的一個很是好的時機。」架構
除了上文提到的 Title,賈揚清現在也同時支持阿里巴巴的一系列開源工做,所以他在此次開發者大會上所作的演講主要也是圍繞開源這個話題來展開。對於開發者社區工做,賈揚清有很是大的熱情,他但願本身加入阿里以後可以更好地推進國內開源的發展。框架
在採訪中,賈揚清向咱們詳細介紹了阿里巴巴接下來在開源層面的幾個重點策略。阿里巴巴但願在如下三個方面作比較完整的梳理並和社區合做推動:機器學習
在賈揚清看來,應用開源項目的時候,跟社區的緊密程度每每決定了整個應用的成敗。過去業界經常出現一種狀況,每一個公司都對開源社區版本有所謂的改動,最後社區的能力和公司的能力分別發展,很難融合回去。但今天你們已經從過去的經驗教訓中學到了與社區對接更好的方法。以計算平臺事業部當前投入大量精力運營的實時計算引擎 Apache Flink 項目爲例,一方面,公司會深刻參與到一些功能的開發和優化當中,另外一方面,你們會把軟件上的能力和系統架構上的思路都貢獻到開源社區,避免每一個人把開源拿到公司內部本身又改一通這種作法,進而推進開源項目更好地發展。對於公司來講的話,反過來也可以更加有效地利用開源最新的成果。編程語言
除了集團層面的開源策略,對 Apache Flink 開源社區,賈揚清也透露了接下來的一些規劃。分佈式
目前 Flink 對於流計算的使用場景已經支持得很是好了,接下來阿里依然會從用戶的需求出發,繼續對 Flink 作優化和改進。同時,阿里會繼續開展 Flink Forward 大會這樣的活動,經過這些活動和開發者互動,向你們傳達 Flink 接下來的 Roadmap 等;另外也但願經過這種方式和社區對接,來得到更多的關於 Flink 接下去應該怎麼走的系統設計,包括 Roadmap 上的一些輸入。賈揚清表示,對一個比較健康的開源項目來講,本身的系統設計跟用戶需求的輸入這兩方面都是必不可少的。 因此不少開源項目都會有一個對應的開發者大會做爲跟開發者互動的媒介,Flink 也不會例外。
Caffe 是「以前的表明做」
做爲 AI 架構大神,不少人知道賈揚清是由於他寫的 AI 框架 Caffe,但那也已是 6 年前的事情了。在聊到 Caffe 這個表明做時,賈揚清特地停下來強調,「是 以前的表明做」。由於 6 年前尚未框架能夠知足需求,因此賈揚清爲了解決論文研究中遇到的問題本身開發了 Caffe。賈揚清認爲,那個時候仍是相對比較刀耕火種的時代,你們更多隻是出一些科研論文,對於工程上軟件框架怎麼作、怎麼適配都比較早期。但隨着深度學習的興起和發展,工業界的輸入愈來愈多,現在像 TensorFlow、PyTorch 等主流 AI 框架在解決圖像、天然語言處理、語音等一系列建模問題時,已經比當年作得好不少,現階段主流框架要解決的問題比 6 年前賈揚清本身研發 Caffe 框架時想要解決的問題也更大了。
賈揚清將 Caffe、Theano、Torch 定義爲上一代 AI 框架,這些早期框架帶有很強的學術界的烙印,作的更多的是針對科研方向的一些嘗試。而現在的第二代 AI 框架如 TensorFlow、PyTorch 已經把框架的概念擴得更寬,不光只是作深度學習的神經網絡建模,更多的是怎麼設計一個通用的科學計算引擎,同時探索編譯器、軟硬件協同設計和更復雜的建模的上層框架等方向。「6 年前所說的框架在今天看來,可能只是整個軟件棧裏面很窄的一部分。」
Caffe 推出之初,賈揚清但願它能成爲「機器學習和深度學習領域的 Hadoop」,如今回過頭來再看當時定下的目標,賈揚清以爲其中有一些巧合特別有意思。當初定下這個目標,是但願 Caffe 可以像 Hadoop 同樣普遍普及,沒想到後來兩者真的在發展路線上經歷了相似的狀況。從大數據的角度來講,今天大數據已經從 Hadoop 進化到 Spark、Flink 這樣更爲複雜的引擎。當年 Hadoop 主要的計算模式就是 MapReduce,而現在的 Spark、Flink 都使用了更復雜的作法。好比 Spark 使用 Directed Acyclic Graph(DAG)對 RDD 的關係進行建模,描述了 RDD 的依賴關係,它的計算模型比 MapReduce 更加靈活。Caffe 跟如今的新一代框架相比也有相似的狀況,Caffe 等以前的框架的設計很是針對神經網絡,它的系統設計中有一個叫 Network 的概念,而後裏頭還有一個 Layer 的概念,作前向和後向計算,比較固化,有點像 MapReduce 同樣。而今天的主流框架如 TensorFlow、PyTorch、Caffe2 等,使用的是更加通用的計算圖模型。能夠說 AI 框架和大數據框架經歷了相似的發展歷程,都有一個從第一代向第二代往前進化的狀況。
AI 框架應該關注重複造輪子以外的挑戰
在早前阿里一次內部演講中,賈揚清表達了這樣一個觀點,他認爲「AI 框架的同質化說明技術的挑戰在其餘更普遍的方向」。對於作出如此判斷的理由,賈揚清向 InfoQ 記者作了更詳細的說明。
賈揚清將當前 AI 框架的用途歸結爲最重要的兩點,一是支持在框架之上簡單靈活地建模,也能夠叫作開發的靈活性;另外一點是實現更高效的計算,由於一旦把 AI 算法應用到工程上,基礎架構的效率會變得很是重要,好比推薦系統可能要跑在幾萬臺甚至幾十萬臺機器上,性能優化就必須作好。當前大多數框架都在朝這兩個方向努力,包括 TensorFlow 2.0 加入了 Eager Mode 和 PyTorch 1.0 將舊版本的 PyTorch 和 Caffe 合併,都是在逐漸解決前面提到的這兩個問題,補齊本身的短板。其實目前已有的框架都在互相學習和借鑑,你們要解決的問題已經開始逐漸變得清晰和明朗化,你們的設計也在朝着同一個方向走。「這個時候,從必定程度上來講,從新造一個輪子到底有多大的意義呢?這是 AI 工程師須要深刻考慮的問題。」
更深地說,幾年前,你們說到 AI 的時候有點將 AI 等同於 AI 框架這樣的狀況,但到了今天,整個 AI 工程的解決方案作出來,其實框架是裏面很薄的一部分。賈揚清認爲 AI 框架就好像計算機編程語言,好比 C++ 是一個比較好用的語言,但光有它是不夠的,框架真正能體現價值的緣由,在於它有很是好的生態,並且有很是多的科學計算和外部服務等。因此從框架開始,往上跟往下都有很是多新的戰場或者說更多的領域須要咱們關注。
往下可能包括系統上的創新,好比怎麼作高性能計算、怎麼作軟硬件協同設計等;往上作的話,框架自己可能沒有作太多大規模訓練、模型迭代等工做的完整工具鏈。所以阿里如今關注的第一個是擁抱框架,第二是把 AI 整個鏈路作出來,好比前段時間阿里開源了一個 MNN 引擎,它可讓咱們更好地在手機端、嵌入式端運行模型。另外,阿里還有一個開源項目叫 XDL,XDL 的一個想法是怎麼構建大規模稀疏化的推薦系統,稀疏化建模是不少通用框架上很是缺的一層:在基本的框架上面,須要有一個高層的抽象,或者是更加跟業務相關的工具平臺來解決這個問題。爲何大規模稀疏的系統有用呢?由於全部的推薦系統都是跟它有關係的,好比說阿里巴巴怎麼樣來作推薦,用戶在不一樣的新聞網站上面感興趣的新聞是什麼,都涉及到稀疏數據,因此這一塊光有通用計算框架解決不了,AI 端到端的工程須要在整個棧上發力。
軟硬件協同設計
在賈揚清看來,AI 編譯器是接下來比較有趣而且很是重要的一個研究方向。首先,深度學習框架以前每每須要手寫各類算子的實現,若是有一個新硬件版本出來,這些函數每每須要從新優化;其次,作優化的時候,這些手寫函數究竟是不是最優的,即便是專家,是否能窮盡全部可能的辦法找到性能最優解,都是不必定的。而像 XLA、TVM 這樣的 AI 編譯器就是在解決這些問題。
AI 編譯器屬於軟硬件協同設計的範疇,旨在最大化芯片能力。當前新的芯片產品層出不窮,咱們原來這種來一個硬件在上面手寫設計軟件的模式已經開始逐漸的跟不上了。如今的應用愈來愈複雜,結構也愈來愈複雜,咱們也不知道手寫的設計是否是最優的,這個時候就開始要考慮怎麼作 AI Guided Compilation 或 Performance Guided Compilation,把硬件的能力跟軟件的靈活性更好地結合在一塊兒。以 TVM 這個項目爲例,它能夠在運行時的時候,經過計算模式跟硬件特徵來設計或者生成最優的運行代碼。這些都是軟硬件協同設計正在探索的方向,已經變成比框架更有意義的方向,不管從科研仍是應用上來講都是如此。
但軟硬件協同設計要作好難度很大,須要對體系結構有豐富經驗的人才行,這樣的工程師不多並且培養也很是困難。若是咱們可以將體系結構建模成一個可優化的問題,那麼機器學習就能夠派上用場了。
AI 與計算機系統架構
Jeff Dean 等人從 2018 年 3 月開始發起 SysML 會議,聚焦於機器學習 / 深度學習相關的硬件基礎設施和計算機系統。那麼 AI 到底可以給計算機系統架構帶來哪些新的機會?賈揚清認爲能夠從兩個方面來看。
Jeff Dean 在提到 SysML 的時候,其實提過這樣一個概念,就是 Machine Learning for Systems and Systems for Machine Learning。今天咱們作的更多的是 System for MachineLearning,指的是當機器學習有這樣一個需求的時候,咱們怎麼去構建一個系統來知足它的需求。另外一方面,在計算機系統構建的過程當中,咱們還能夠考慮怎麼經過機器學習的方法跟數據驅動的方法來優化和設計系統,解決原來系統設計對人的經驗的依賴問題,這是 MachineLearning for System 能夠解決的事情,不過目前這方面還處於相對比較早期的探索階段,也是人工智能接下來還須要突破的瓶頸之一。
AI 商業化落地
工業界落地是賈揚清現階段重點關注的另外一個方向。與初入 AI 領域的時候相比,賈揚清認爲如今 AI 領域最大的一個變化就是工業界對於 AI 的應用需求和算法輸入變得愈來愈多了。最先在 2000 年初的時候,業內你們會有一個感受:機器學習在 80% 的時候可以以 80% 的準確率解決 80% 的問題。這其實意味着它沒有跨過能夠實際商用的門檻。但到了如今,深度學習在不一樣領域取得了至關亮眼的成果,不少算法的準確度提高到了能夠落地應用的閾值之上,如此一來工業界開始大量地使用算法,反過來又推進算法進一步發展,愈來愈多工業界的場景需求被反饋到科研上,同時也使 AI 研發人羣數量有了一個很是大的增加。
但與此同時,人工智能在實際落地的時候依然存在行業壁壘。如何把人工智能的通用性作好,使 AI+ 行業可以真正地推進下去,這在賈揚清看來是人工智能領域目前面臨的另一個瓶頸。
從科研的角度來講,人工智能領域也存在很多待解決的問題,好比智能的本質究竟是什麼,咱們如今更多在作的仍是預測問題,那麼怎麼作因果關係和因果推理,怎麼作可解釋的人工智能,等等。
如何選擇 AI 研究方向?
最近知乎上有一個問題很是火爆,題主的問題是「當前(2019 年)機器學習中有哪些研究方向特別的坑?有哪些小方向實用性不好或者很難作?或者有哪些小方向是隻有圈子內的人能發?」咱們把這個問題也拋給了賈揚清,請他來回答。不過揚清大神表示預測將來太不靠譜,當初他剛開始搞機器學習的時候你們都認爲神經網絡確定沒戲,「因此這事誰也說不清楚。但有一點是比較確定的:不要再寫老框架了,而是要看看新的方向。」
賈揚清直言,若是如今再去寫個 Caffe 框架就沒意思了,但若是你是想看到 TensorFlow 和 PyTorch 的長處和短處,並寫出一個無論是編程語言仍是系統角度跟他們有差別化優勢的更好的框架,仍是能夠作。總之就是:不要 Follow,而要想些新的問題。 好比谷歌最近有一個叫作 JAX 的項目就很是受歡迎,首先它可以很是天然地跟 Python 結合到一塊兒,同時應用底層編譯器的能力來作優化,這些是科研上頗有意思的新方向。雖然賈揚清不認爲 JAX 會立刻替換掉 TensorFlow,也不認爲它必定能解決全部問題,但它確實是一個很好的探索方向,就像 2008 年的 Theano、2013 年的 Caffe 同樣,是值得一看的新東西。
另外,賈揚清也表示最近看到偏網絡調參的論文有點多,他認爲經過手工調參使性能獲得一點提高這樣的研究價值正在逐漸降低。研究人員更應該去關注是否有更好的方法論來實現自動網絡調優。也就是說「越偏手工的科研方向是越低價值的方向,越可以提煉出通用的方法論並用到大規模系統上的研究可能更加有意思。」
當前深度學習其實仍是很是依賴大數據量,隨着互聯網和終端設備的快速發展,產生的數據不只量大並且變化也很是快,那麼如何快速將最新的數據輸入進來、處理並生成更爲精準的算法模型?這給 AI 基礎設施,包括大數據計算平臺,提出了新的要求。
早前像 Hadoop 這樣的系統是將計算、存儲都放在一塊兒,後來業內開始更多提倡計算與存儲分離,便於實現彈性的擴縮容。當時說計算跟存儲分離,更多在說的是存儲跟大數據計算,而今天咱們又有了新的計算,就是 AI 訓練帶來的異構計算。賈揚清將對應的新系統稱爲存儲、數據計算和科學計算三者分離:存儲主要解決分佈式存儲大量數據、穩定性、Throughput 這一系列的問題;數據計算解決怎麼作數據的預處理、數據的清洗、數據的變換這一類問題;科學計算解決怎麼利用硬件的性能來快速解決大量數學表達式的運算和計算模式問題。這樣一個系統,怎麼進行模塊化設計,怎麼將不一樣模塊有機地聯合起來,這是對於大數據系統設計提出的新挑戰。
對於大數據計算平臺將來須要重點發力的方向,賈揚清認爲主要是如何進一步對接場景、提升效率以及優化用戶體驗等。他表示,大數據計算如今主要有四個場景,第一個是傳統的批計算,第二個是像 Flink 這樣的流計算,第三個是怎麼作秒級甚至毫秒級的交互式查詢,第四個是怎麼把大數據鏈路跟 AI 打通,來作大規模的智能模型的訓練和部署。
流計算這幾年愈來愈受重視,Flink 一直主打流批統一,對此,賈揚清也有本身的見解。
批和流在大數據領域面對的場景仍是很不同的,個人觀點是,批和流這兩個場景是根據底層的系統設計天然出現的,不一樣的引擎有些擅長批,有些擅長流,Flink 在流上面就是無出其右的,作批流統一是爲了給用戶提供更加完整的體驗。如今你們常常討論批和流統一的問題,實際上是由於有比較實際的背景。你們更多場景是以流計算爲主,有時候須要有一些批計算的應用,但不須要過高的效率。這個時候若是徹底整個換一套引擎,開銷太大,這時候引擎就要考慮怎麼去補齊短板,爲應用提供一個端到端的體驗,不須要在計算過程當中由於不一樣需求把全部數據都挪一遍。在批流統一上,我認爲 Flink 仍是會繼續增強本身在流計算上面領先的地位,同時對於批計算、交互式查詢作補齊,使用戶在一個以流爲主、相對比較綜合的場景下,就可以很快地構建本身的解決方案。
如今咱們看見愈來愈多的流計算、交互式計算這兩個應用場景出現。至於將來是以流計算爲主仍是以批計算爲主,我我的以爲接下來很長一段時間這兩類計算仍是會同時存在,並且針對不一樣的場景優化其實仍是比較獨特的,很難用一套來解決全部的問題。
做爲 AI 科學家中的佼佼者,賈揚清在短短几年裏完成了從工程師、研究人員到技術管理者的蛻變,在職業發展生涯的不一樣階段,大神也會面臨不一樣的挑戰。在採訪的最後一小段時間,賈揚清跟咱們分享了他從本身的職業發展生涯總結的幾點小經驗,但願對你們有所幫助。
持續學習,多和同行交流
AI 技術發展突飛猛進,對於開發者、工程師來講,最頭疼的多是天天都會不斷涌現出新的技術、新的框架、新的算法模型等,一不留神可能本身掌握的知識就過期了,並且這也使研究方向的選擇變得愈來愈困難(有多難、可否出新的成果、有沒有別人作過了等都要考慮)。
賈揚清強調,AI 領域的工程師必定要主動吸取學習新的信息和技術成果,持續進行知識迭代。像 HackerNews、Reddit 的 Machine Learning 板塊等都是很好的信息渠道。如今也有不少媒體在推進 AI 領域前沿一些新想法、新成果和新的科研方向的傳播,這也是一件很好的事情。
至於研究方向的選擇,賈揚清認爲兩條原則就夠了,一個是興趣,另外一個是多和同行交流。
讓本身成爲技術多面手
正如前面提到觀點,在賈揚清看來,如今 AI 框架已經再也不是 AI 工程師的桎梏了,AI 工程師的崗位職責也會相應的發生一些變化,將來你們須要把本身的關注點更多地放在跟實際應用場景相結合上。接下來最大的機遇是怎麼把 AI 真正落地,對於工程師來講,他就須要從單純只作 AI 轉變成具有全棧能力,包括怎麼對接 IoT 設備、怎麼把 AI 能力作到汽車上去等。工程師除了要增強本身的 AI 能力之外,也要把本身的技術能力培養得更加多面手一些。
賈揚清坦言,在必定程度上,其實「AI 工程師」這個稱謂有點被濫用了,更多仍是由於 AI 比較熱而催生出來的角色。
「其實今天沒有隻是作 Java 的 Java 工程師,由於 Java 只是一個工具,AI 其實也只是一個工具,更重要的仍是你拿它來作什麼。就像每一個工程師都得會編程,或者說每一個工程師都得會基本的一些工程能力,AI 也是一項基本的工程能力。」對於普通開發者,無論是哪一個領域的的開者,將來均可以學一學 AI 的應用,不必定須要學到知道怎麼構建 AI 框架這個程度,只須要學會怎麼把 AI 當成 Excel、Java 這樣的工具來用,這是加強本身能力的一個比較有意思的方向。對於專門作 AI 的工程師或者科研人員來講,更多的仍是須要在本身的領域深挖。
從一線開發到管理者:學會後退一步,成就他人
賈揚清剛剛從一線開發轉到管理崗位的第一年,依舊埋頭寫代碼,產出的代碼量在組裏頭不是第一就是第二,但這使他在對團隊的支持和培養方面的投入捉襟見肘。對於一線開發這或許是個不錯的表現,但對於一個管理人員來講就未必了。由於做爲管理者,他並沒能給團隊的成長提供足夠多的價值。人的精力是有限的,哪怕他當時工做時間從上午九點到晚上十二點,甚至更晚,也沒法作到兼顧寫代碼和支持團隊。
這一年發生的事情對賈揚清的觸動很大,他後來才意識到做爲管理者真正須要作的是幫助團隊其餘人最大化本身的能力,而不是說像單純搞技術開發的時候那樣本身一我的往前衝就能夠了。管理者要學會本身日後退一步,提供必要的指導和賦能,相信別人併爲他們創造空間,讓一線的同窗可以獲得更多的鍛鍊,心態得從本身鑽技術轉變爲支持團隊 Scale 技術。
本文爲雲棲社區原創內容,未經容許不得轉載。