- 原文地址:medium.com
- 原文做者:Max Grigorev
- 譯文出自:掘金翻譯計劃
- 本文永久連接:github.com/xitu/gold-m…
- 譯者:TUARAN
- 校對者:xionglong58, Fengziyin1234
過去的一年,在 AI 領域裏發生了許多事情,也有不少發現和豐富的發展。很難在各類觀點中提取出有效的信號,若是它存在,那麼這個信號又說明了什麼。這篇文章的目的正在於此:我將嘗試提取過去一年在 AI 領域裏一些共通的模式。若是幸運的話,咱們將看到一些(AI 的)趨勢是如何延伸到不久的未來。html
有這樣的一種說法(黑貓類比):「最難的事就是在一間黑暗的房間裏找到一隻黑貓,尤爲是房間裏沒有貓的時候。」多麼智慧啊。前端
看見那隻貓了嗎?android
毫無疑問,這是一篇觀點文章。我並非要全面的記錄 AI 這一年的成就。我只是想概訴一下這些趨勢中的一些。另外聲明:這篇文章的論點以美國爲中心。好比,在中國,正發生許多有趣的事,但不幸的是,我對那使人興奮的生態系統並不熟悉。ios
這篇博文適合誰看?若是你還在繼續閱讀,它可能適合你:一個想要開闊眼界的工程師;一個尋找下一步他們的精力將投向何處的企業家;一個尋找下一筆交易的投資家;或者只是一名爲技術歡呼的人,火燒眉毛的想知道這股旋風將把咱們帶往何處。git
算法論述,無疑是由深度神經網絡主導的。固然,你會聽到有人在處處部署一個「經典的」機器學習模型(好比梯度提高樹或者多臂老虎機)。並聲稱這是因此人須要的惟一的東西。有人聲稱深度學習正處於垂死掙扎的境地。即便是頂級研究人員也在質疑某些 DNN 架構的效率和健壯性。可是,不論你承不認可,DNNs 無處不在:在自動駕駛汽車中,在天然語言系統中,在機器人中 —— 你能說上名字的任何事上。DNNs 在好比天然語言處理、生成式對抗網絡和深層強化學習上有着最爲明顯的飛躍。github
儘管在2018年之前,DNNs 在文本研究上已經取得了一些突破(例如 word2vec、GLOVE 和 LSTM-based 模型),可是它(DNNs)缺乏一個關鍵的概念上的元素:遷移學習。就是說,在大量公開可用的數據上來訓練一個模型,而後在您使用的特定數據集上「微調」它。在計算機視覺中,使用在著名的 ImageNet 數據集上發現的模式來解決特定的問題一般是解決方案的一部分。web
問題是,用於遷移學習的技術並不能很好地應用於 NLP 問題。從某種意義上說,像 word2vec 這樣的預先訓練嵌入式的程序填補了這一空缺,可是它們只能在單詞級別上工做,沒法捕捉語言的高級結構。算法
然而,到了2018年,狀況發生了變化。ELMo,情境化嵌入成爲改善 NLP 遷移學習的第一個重要步驟。 ULMFiT 甚至更進一步:因爲對嵌入式的語義捕獲能力不滿意,做者找到了一種對整個模型採用遷移學習的方法。後端
就是這我的!安全
但最有趣的發展無疑是 BERT 的引入。經過讓語言模型從英語維基百科的全部文章中學習,團隊可以在 11 個 NLP 任務上獲得最早進的結果 —— 至關了不得!更好的是,代碼和預訓練模型都是在線發佈的 —— 所以您能夠將這一突破應用於您本身的問題。
CPU 速度再也不呈指數級增加,可是關於生成式對抗網絡 (GANs) 的學術論文的數量彷佛還在繼續增加。GANs 多年來一直是學術界的寵兒。然而,現實生活中的應用程序彷佛少之又少,並且在2018年幾乎沒有什麼變化。GANs 仍然有驚人的潛力等待被發現。
新出現的方法是逐步增長使用 GANs:讓生成器在整個訓練過程當中逐步提升輸出的分辨率。一篇使人印象深入的論文樣式轉換技術來生成逼真的照片使用了這種方法。有多麼逼真呢?你告訴我:
這些照片中哪一張是真人?有陷阱的問題:沒有一個是真的。
然而,GANs 真正的工做方式和緣由是什麼呢?咱們尚未深刻了解這個問題,可是已經採起了一些重要的步驟:麻省理工學院的一個研究小組針對這個問題作了一個高質量的研究。
另外一個有趣的應用,雖然在技術上使用的不是 GAN,而是 Adversarial Patch。這個想法是使用黑盒(也就是說,不查看神經網絡的內部狀態)和白盒方法來建立一個「補丁」,這將欺騙 CNN-based 分類器的「補丁」。這是一個重要的結果:它能夠引導咱們更好地理解 DNNs 是如何工做的,以及咱們離人類層次的概念感知還有多遠。
你能分辨香蕉和烤麪包機嗎?AI 仍然不能。
自2016年 AlphaGo 打敗李世石以來,強化學習一直備受關注。儘管 AI 已經統治了最後一款「經典」遊戲,但咱們還須要征服什麼呢?整個世界!特別是電腦遊戲和機器人。
對於訓練來講,強化學習依賴於「獎勵」信號,這是對它在最後一次嘗試中表現如何的評分。電腦遊戲提供了一個天然的環境,在那裏這樣的信號很容易獲得,而不是在現實生活中。所以,RL(強化學習)研究的全部注意力都集中在如何教 AI 玩雅達利遊戲上。
談到他們的新發明 DeepMind,AlphaStar 再次成爲新聞。這個新模式戰勝了星際爭霸 II 的一個頂級職業玩家。星際爭霸比國際象棋或圍棋要複雜得多,它擁有巨大的行動空間和隱藏在玩家面前的關鍵信息,這與大多數棋盤遊戲不一樣。這一勝利對整個領域來講是一個很是重大的飛躍。
OpenAI,這個領域的另外一個重要玩家,也沒有閒着。他們因 OpenAI Five 而成名,在8月份,該系統在一款極其複雜的電子競技遊戲《dota2》中擊敗了99.95%的玩家。
儘管OpenAI一直在關注電腦遊戲,但他們並無忽視 RL 真正的潛在應用:機器人。在現實世界中,人們給機器人的反饋不多,並且製做起來也很昂貴:你基本上須要一我的照看你的 R2D2,當它正試圖邁出第一步。你須要數以百萬計的數據點。爲了彌補這一差距,最近的趨勢是學習模擬環境,並在投入實際應用以前並行運行大量這些場景,以傳授機器人基本的技能。OpenAI 和谷歌都在研究這種方法。
Deepfakes 是一種圖片或視頻,一般顯示一個公衆人物在作或在說他們從未作過或說過的事情。它們是經過在大量「目標」人物的鏡頭上訓練 GAN 來建立的,而後生成新媒體,並在其中執行所需的操做。一款名爲 FakeApp 的桌面應用程序於 2018 年 1 月發佈,它容許任何一個擁有電腦卻沒有任何計算機科學知識的人制造 deepfakes。雖然由它製做的視頻很容易被發現不是正品,但這項技術已經進步了不少。看看這個視頻就知道了。
謝謝你,奧巴馬?
如今已經有不少深度學習框架。這個領域是廣闊的,這種多樣性在表層上是合理的。但在實踐中,近來大多數人要麼使用 Tensorflow,要麼使用 PyTorch。若是您關心可靠性、部署的簡易、模型的從新加載,以及 SREs 一般關心的事情,那麼您可能會選擇 Tensorflow。若是你正在寫一篇研究論文,但沒有在谷歌工做 —— 你可能用過 PyTorch。
今年咱們看到了更多的人工智能解決方案,它們被打包成一個 API 供軟件工程師使用,這些工程師不須要有斯坦福大學機器學習博士學位的朋友在身邊。Google Cloud 和 Azure 都改進了舊的服務並添加了新服務。AWS 機器學習服務列表開始變得讓人覺着可怕。
天哪,AWS很快就須要二級文件夾的層次結構來提供服務了。
儘管這股熱潮已經有所降溫, 可是多家初創公司都向它(提供ML 服務)發出了挑戰。每家公司都承諾模型訓練的速度,推理過程當中的易用性和驚人的模型性能。只需輸入你的信用卡,上傳你的數據集,給模型一些時間來訓練或完善,調用一個 REST(或者,對於更有前瞻性的初創公司來講,則選擇 GraphQL API,成爲 AI 的大師,甚至不須要弄清楚什麼是隨機失活。
有了這麼多的選擇,爲何還有人會費心本身構建模型和基礎結構呢?實際上,彷佛市面上的 MLaaS 產品能夠很好地處理80%的用例。若是你想讓剩下的20%也能正常工做 —— 那你就太不幸了:你不只不能真正選擇模型,甚至不能控制超參數。或者,若是您須要在雲計算以外的某個地方進行推導 —— 這一般不能作到。這絕對是一種權衡。
今年推出的兩項特別有趣的服務都是由谷歌推出的。
首先,谷歌 Cloud AutoML 是一套針對 NLP 和計算機視覺模型訓練而定製的產品。這是什麼意思呢? AutoML 設計器經過自動微調幾個預先培訓的模型並選擇其中性能最好的模型來解決模型的定製問題。這意味着您極可能不須要自定義模型。固然,若是你想作一些真正新的或不一樣的事情,那麼這個服務將再也不適合你。可是,做爲附帶的好處,谷歌在大量專有數據的基礎上對他們的模型進行了預先培訓。想一想全部這些貓的照片;這些比 Imagenet 生成的要好的多
其次,AI Hub 和 TensorFlow Hub。在這二者以前,重用某我的的模型着實是一件苦差事。GitHub 上的隨機代碼不多工做,文檔記錄也不好,並且一般不太好處理。還有用於遷移學習的預先訓練的權重......你根本都不會試圖讓他們能正常工做。這正是 TF Hub 要去解決的問題:它是一個可靠的、通過策劃的模型存儲庫,您能夠對其進行微調或構建。只需包含幾行代碼 —— TF Hub 客戶端將從谷歌的服務器獲取代碼和相應的權重 —— 瞧,它能夠工做了!AI Hub 則更進一步:它容許您共享整個 ML 信道,而不只僅是模型!它一直在 alpha 中,它已經比那些文件(什麼樣的文件呢? 那些最新的 file 是三年前修改的文件。)更加好了,若是您明白個人意思。
若是你在2018年認真瞭解過 ML,特別是 DNNs,你用過了一個 GPU(或多個)。與此同時,GPU 的領導度過了很是忙碌的一年。在加密熱潮降溫和隨後的股價暴跌以後,英偉達發佈了一套基於圖靈架構的新一代消費卡。在 2017 年發佈了基於 Volta 芯片的專業卡,新卡包含了新的高速矩陣乘法硬件,咱們稱之爲 Tensor Cores。矩陣乘法是 DNNs 的核心,加快這些運算將大大提升神經網絡在新的 GPU 上的運行速度。
針對那些對「小」和「慢」的遊戲 GPU 不滿意的人,英偉達更新了他們的企業級 GPU 「超級計算機」。相較於480 TFLOPs的FP16操做來講,DGX-2 是 16 Tesla 系列的怪物。而且價格也被刷新,高達 40 萬美圓。
自主式硬件也獲得了更新。英偉達但願 Jetson AGX Xavier 主板將爲下一代自動駕駛汽車助力。一個八核的 CPU,一個視覺加速器,以及深度學習加速器 —— 這是發展中的自動駕駛行業所須要的一切。
在一項有趣的開發中,英偉達爲其遊戲卡增長了 DNN-based 的特性:深度學習超抽樣。這個想法是爲了取代抗鋸齒處理,目前主要是經過呈現比所需分辨率(好比 4x )更高的圖片,而後將其縮放到本機監視器的分辨率來實現的。如今,英偉達容許開發者在發佈遊戲以前,對運行在遊戲上的圖像轉換模型進行高質量的運行。以後,遊戲將使用預訓練模型交付給最終用戶。在遊戲過程當中,不須要花費老式的抗鋸齒的代價,幀經過在模型上的運行來提升圖像質量。
2018年,英特爾絕對不是 AI 硬件領域的開拓者。但他們彷佛想要改變這一點。
使人驚訝的是,英特爾的大多數活動都發生在軟件領域。英特爾正在努力使他們現有的和即將推出的硬件對開發者更加友好。考慮到這一點,他們發佈了兩個(使人驚訝的,有競爭力的)工具包:OpenVINO 和 nGraph。
他們更新了他們的 Neural Compute Stick:一個小型 USB設備,能夠加速DNNs 在任何 USB 端口上運行,甚至是在 Raspberry Pi 上。
關於 Intel 離散型 GPU 陰謀的傳聞也愈來愈多。流言蜚語愈演愈烈,但新設備在 DNNs 應用的適用性還有待觀察。真正適用於深度學習的是傳說中兩張專業深度學習卡,代號爲 Spring Hill 和 Spring Crest ,後者是基於多年前英特爾收購的創業公司 Nervana 的技術。
谷歌發佈了他們的第三代 tpu:一個基於 asic 的 dnn 專用加速器,擁有驚人的 128Gb HMB 內存。256 個這樣的設備被組裝成一個性能超過 100 千萬億次的吊艙。今年,谷歌讓谷歌雲上的公衆可使用 tpu,而不只僅是用這些設備的強大來戲弄世界其餘地方。
與此相似,但主要是針對推理應用程序,Amazon 部署了 AWS Inferentia:一種在生產環境中運行模型的更便宜、更有效的方法。
谷歌還宣佈 Edge TPU:上面討論的大爛牌的小弟弟。這種芯片很小:一枚 1 美分硬幣的表面能夠容納 10 枚。同時,它能夠在實時視頻上運行 DNNs,幾乎不消耗任何能量。
一個有趣的潛在新參與者是Graphcore。這家英國公司已經籌集了使人印象深入的3.1億美圓,並在2018年推出了他們的第一款產品—— GC2芯片。根據 benchmark,GC2 在進行推算時,會在消耗更少的功耗的狀況下,清除頂級的 Nvidia 服務器 GPU 卡。
亞馬遜推出了一款小型自動駕駛汽車DeepRacer,併爲此成立了一個賽車聯盟。這款售價 400 美圓的汽車配備了 Atom 處理器、 4MP 攝像頭、wifi、多個 USB 端口以及足夠運行數小時的電量。自動駕駛模型能夠徹底在雲端使用 3d 仿真環境進行訓練,而後直接部署到汽車上。若是你一直夢想着製造本身的自動駕駛汽車,這是你不用開一家由風投支持的公司就能實現這一夢想的機會。
如今的組件 —— 算法、基礎結構和硬件 —— 讓 AI 比以往任什麼時候候都要好用,企業正在乎識到,應用人工智能的最大障礙在於實用性:如何將人工智能從一個想法應用到生產中運行的有效、安全、可靠的系統中去?應用人工智能,或稱應用機器學習 (ML),也被稱爲決策智能,是一門爲現實問題建立人工智能解決方案的科學。雖然過去將大部分注意力放在算法背後的科學上,但將來可能會更多地關注該領域端到端的應用程序方面。
「人工智能將搶走咱們全部的工做」是媒體的廣泛說辭,也是藍領和白領工人的共同擔心。從表面上看,這彷佛是一個合理的預測。但到目前爲止,事實彷佛正好相反。例如,許多人經過建立帶標籤的數據集而得到報酬。
這些報酬超越了低收入國家一般的收入:有幾個應用程序,好比 LevelApp,可讓生活困難的人民僅用手機給本身的數據貼上標籤就能賺錢。Harmoni 更進一步:他們甚至向難民營裏的移民提供設備,讓他們能夠貢獻本身的力量,並以此謀生。
在數據標籤的基礎上,新的人工智能技術正在創造整個行業。咱們可以作的事情,在幾年前甚至是不可想象的,像自動駕駛汽車或藥物發現。
在面向數據的系統的工做方式中,一般在系統的邊緣,即採集端,有更多的數據可用。信道的後期一般以向下採樣或以其餘方式下降信號的保真度。另外一方面,隨着愈來愈複雜的人工智能模型表現得愈來愈好,數據也愈來愈多。令人工智能組件更靠近數據的邊緣不是更有意義嗎?
一個簡單的例子:想象一個高分辨率的相機,它能以 30 fps 的速度產生高質量的視頻。處理視頻的計算機視覺模型,在服務器上運行。攝像機將視頻傳輸到服務器,但上行帶寬有限,所以視頻被壓縮和高度壓縮。爲何不將視覺模型移動到攝像機並使用原始視頻流呢?
這方面老是存在許多障礙,主要是:邊緣設備上可用的計算能力的數量和管理的複雜性(例如將更新的模型推到邊緣)。隨着專用硬件(如谷歌的 Edge TPU、蘋果的神經引擎等)、更高效的模型和優化的軟件的出現,計算的侷限性正在被消除。經過改進 ML 框架和工具,能夠不斷地解決管理的複雜性。
在此以前的幾年裏,人工智能基礎設施領域充滿了活動:盛大的公告、鉅額融資以及崇高的承諾。2018年,太空競賽彷佛降溫了,雖然仍有一些重要的新入口,但大部分貢獻是由現有的大型參與者作出的。
一種可能的解釋是,咱們對人工智能系統的理想基礎結構的理解是不夠成熟。由於問題很複雜。這須要長期的、持續的、專一的、資源充足的努力來產生一個可行的解決方案 —— 這是創業公司和小公司不擅長的。若是一家初創公司忽然「解決」了人工智能的基礎問題,那將是很是使人驚訝的。
另外一方面,ML 基礎架構工程師很是少見。對於一家規模更大的公司來講,一家擁有數名員工、但處境艱難的初創公司顯然是一個有價值的收購目標。幾個玩家但願經過在構建內部和外部工具贏得遊,他們都在構建內部和外部工具。例如,對於 AWS 和谷歌雲,人工智能基礎設施服務是一個主要的賣點。
把它們放在一塊兒,空間的主要整合就成爲一個合理的預測。
摩爾定律已經逝去,至少對於 CPU 來講是這樣,並且這種狀況已經持續了不少年。GPU 很快也將遭遇相似的命運。當咱們的模型變得更高效時,爲了解決一些更高級的問題,咱們須要得到更多的計算能力。這能夠經過分佈式訓練來解決,可是它有本身的限制和權衡。
此外,若是您想在資源受限的設備上運行一些更大的模型,分佈式訓練是沒有幫助的。輸入自定義 AI 加速器。根據您想要或能夠進行的定製,您能夠保存一個量級的電力、成本或延遲。
在某種程度上,甚至英偉達的 Tensor Cores 也是這種趨勢的一個例子。在沒有通用硬件的狀況下,咱們將看到更多這樣的硬件。
標記數據一般要麼昂貴,要麼難以訪問,要麼兩條都有。這條規則幾乎沒有例外。開放的高質量數據集,如 MNIST、ImageNet、COCO、Netflix prize 和 IMDB eviews 是使人難以置信的創新的來源。可是許多問題沒有相對應的數據集來處理。雖然對於研究人員來講,創建數據集並非一個很好的職業發展方向,但可以贊助或發佈數據集的大公司並不着急:他們正在創建龐大的數據集,而且把這些數據私密保存。
那麼,一個小型獨立實體,好比創業公司或大學研究小組,是如找到複雜問題的解決方案的呢?經過構建愈來愈少地依賴監督信號、愈來愈多地依賴無標記和非結構化數據的系統 —— 得益於互聯網和廉價傳感器的普及,這些數據很是豐富。
這在必定程度上解釋了人們對 GANs、遷移學習和強化學習興趣的激增:全部這些技術都須要較少(或不須要)的訓練數據的投入。
那間黑屋子裏有隻貓嗎?我想確定有,不止一個,而是多個。雖然有些貓有四條腿,尾巴和鬍鬚 —— 一般狀況下 —— 有些是奇怪的動物,咱們只是剛剛開始看到它們的基本輪廓。
行業已經進入了 AI 大熱的第七年。在那這段時間裏,大量的研究工做、學術資助、風險投資、媒體關注和代碼編寫被投入到這個領域。但咱們有理由指出,人工智能的承諾基本上仍未兌現。咱們最後一次乘坐優步時,司機仍然是人類。在早晨仍然沒有用機器人下蛋。我甚至不得不本身繫鞋帶,這到底在搞什麼名堂!
然而,無數研究生和軟件工程師的努力並無白費。彷佛每一家大公司要麼已經嚴重依賴人工智能,要麼計劃在將來這麼作。AI art sells。若是自動駕駛汽車尚未出現,那它們也在不久後就會出現。
如今,要是有人能理順這些討厭的鞋帶就行了!等等,什麼?他們作到了?
很是感謝 Malika Cantor、Maya Grossman、Tom White、Cassie Kozyrkov 和 Peter Norvig 閱讀本文的初稿
Max Grigorev 在谷歌創建了 ML 系統,Airbnb 和多家創業公司。他但願建造更多。他也是一名 google 開發者。個人良師益友 Max Grigorev。
若是發現譯文存在錯誤或其餘須要改進的地方,歡迎到 掘金翻譯計劃 對譯文進行修改並 PR,也可得到相應獎勵積分。文章開頭的 本文永久連接 即爲本文在 GitHub 上的 MarkDown 連接。
掘金翻譯計劃 是一個翻譯優質互聯網技術文章的社區,文章來源爲 掘金 上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智能等領域,想要查看更多優質譯文請持續關注 掘金翻譯計劃、官方微博、知乎專欄。