總結部份內容:
算法
做爲整個 Google 人工智能工做的一部分,Google Brain 團隊致力於經過研究和系統工程提高人工智能的技術水平。去年,咱們在 2016 年分享了工做總結。從那時起,咱們在製造智能機器的長期研究上不斷取得進展,並與谷歌和 Alphabet 的許多團隊合做,但願這些成果能夠改善人們的生活。這篇文章將重點介紹咱們在 2017 年的一些工做,包括基礎研究工做,以及開源軟件、數據集和機器學習新硬件方面的更新。編程
核心研究瀏覽器
咱們團隊的重點研究目標是提升咱們在機器學習領域的理解力,以及解決新問題的能力。如下是去年咱們研究的幾個主要課題。安全
自動化機器學習網絡
自動化機器學習的目標,是開發計算機自動解決新的機器學習問題的技術,而不須要人類機器學習專家逐一干預,這是真正的智能系統所需的基本功能。咱們開發了使用強化學習和進化算法設計神經網絡結構的新方法,將這項工做擴展到了 ImageNet 最新分類和檢測結果中,並展現瞭如何自動學習新的優化算法和有效的激活函數。咱們正在積極與 Cloud AI 團隊合做,將此技術帶給 Google 客戶,並繼續向多個方向推動這項研究。數據結構
神經結構搜索發現的卷積網絡架構
使用 AutoML 發現的網絡進行物體檢測app
語言理解與生成咱們的另外一個研究課題是開發一種提升計算機系統理解和產生人類言語能力的新技術,包括與谷歌語音團隊合做改進端到端語音識別的方法,將 Google 語音識別生成系統的單詞錯誤率下降了 16%。這項工做的一個好處是,它須要將許多獨立的研究線索整合到一塊兒(能夠在 Arxiv 上找到:1,2,3,4,5,6,7,8,9)。框架
Listen-Attend-Spell 端到端語音識別模型組成部分機器學習
咱們還與 Google 的 Machine Perception(機器感知)團隊合做開發了一種文本生成語音的新方法(Tacotron 2),大大提升了生成語音的質量。這個模型的平均分數達 4.53 分(MOS),相比之下,有聲讀物中的人類專業播音員的 MOS 評分平均分爲 4.58,而以前計算機生成語音的最佳成績爲 4.34。你也能夠測試一下本身能得多少分。
Tacotron 2 的模型架構
新的機器學習算法和方法咱們繼續開發新的機器學習算法和方法,包括膠囊(在執行視覺任務時明確將尋找激活特徵中的一致性做爲評估不一樣噪聲假設的依據),sparsely-gated mixtures of experts(可以實現仍具備計算效率的大型模型),超網絡(hypernetworks,使用一個模型的權重來生成另外一個模型的權重),新型的多模式模型(在同一個模型中進行音頻、視覺和文本輸入多任務學習),基於注意的機制(代替卷積和循環模型),符號和非符號學習優化方法(經過離散變量向反向傳播的技術),以及一些新的強化學習算法改進。
計算機系統的機器學習
咱們對機器學習在計算機系統中取代傳統的啓發式方法也很是感興趣。咱們已經展現瞭如何使用強化學習來進行放置決策,以便將計算圖映射到一組計算設備上,效果優於人類專家。咱們與 Google Research 的其餘同事一塊兒,在「學習索引結構的案例」中展現了神經網絡比傳統數據結構(如 B 樹,哈希表和布盧姆過濾器)更快、更小。正如 NIPS 研討會上的《機器學習系統和系統的機器學習》一文所述,咱們相信,咱們在覈心計算機系統中使用機器學習方面的研究只是冰山一角。
學習模型索引結構
隱私和安全機器學習和安全和隱私的交互仍然是咱們的研究重點。咱們在論文中展現了機器學習技術提供不一樣的隱私保護,該論文得到了 ICLR 2017 最佳論文獎。咱們還繼續研究了對抗性示例的性特性其中包括現實世界中的對抗性示例,以及如何在訓練過程當中大規模利用對抗性示例,使模型更增強大。
瞭解機器學習系統
雖然咱們在深度學習方面得到了使人印象深入的成果,但理解它的原理也一樣重要。在 ICLR 2017 的另外一篇最佳論文中,咱們發現目前的機器學習理論框架沒法解釋這些深度學習的方法。論文還代表,最優化方法找到的最小值的「平坦度」與良好泛化方法之間的聯繫並無預設中緊密。爲了更好地理解深層架構下的訓練是如何進行的,咱們發表了一系列分析隨機矩陣的論文,由於大多數訓練方法都始於隨機矩陣。瞭解深度學習的另外一個重要途徑是更好地衡量其性能。咱們最近的一項研究顯示了良好的實驗設計和嚴謹的統計對於實驗的重要性,對衆多 GAN 方法進行比較,發現不少流行的生成模型實際上並沒有法提升性能。咱們但願這項研究可以爲其餘研究人員樹立一個可靠的實驗研究範例。
咱們正在探索可以更好地解釋機器學習系統的方法,並於 3 月份與 OpenAI、DeepMind、YC Research 等合做,宣佈推出一本致力於促進人類對機器學習理解的在線開放性科學期刊——《Distill》。這本期刊由於清晰地解釋機器學習概念,以及文章中出色的交互式可視化工具贏得了聲譽。2017 年,《Distill》發表了許多啓發式的文章,旨在瞭解各類機器學習技術的原理,預計 2018 年會有更多優秀的文章刊出。
特徵可視化
如何有效地使用 t-SNE
機器學習研究的開放數據集MNIST、CIFAR-十、ImageNet、SVHN 和 WMT 這樣的開放數據集,極大地推進了機器學習領域的發展。做爲一個總體,咱們的團隊和 Google Research 在過去一年左右一直積極地爲開放式機器學習研究開放有趣的新數據集,提供更多的大型標記數據集,包括:
YouTube-8M:分別用 4716 個不一樣類別註釋的 700 萬條 YouTube 視頻
YouTube 綁定框:210,000 個 YouTube 視頻的 500 萬個綁定框
語音指令數據集:數千條發言者的簡短命令語
AudioSet:200 萬個 10 秒的 YouTube 剪輯,標有 527 個不一樣的聲音事件
自動視覺行動(AVA):57,000 個視頻片斷中的 21 萬個動做標籤
Open Image:9M,標有 6000 個類別的創意共享受權圖片
Open Images with Bounding Boxes:600 個類的 1.2M 邊界框
YouTube 邊界框數據集示例:以每秒 1 幀採樣的視頻片斷,邊界框成功識別感興趣的目標
TensorFlow 和開源軟件TensorFlow 用戶分佈普遍
縱觀歷史,咱們的團隊已經構建了一些工具,幫助咱們在 Google 的許多產品中進行機器學習研究並部署機器學習系統。 2015 年 11 月,咱們開放了第二代機器學習框架 TensorFlow,但願機器學習社區可以從機器學習軟件工具的投資中受益。今年二月份,咱們發佈了 TensorFlow 1.0,在十一月份,咱們發佈了 1.4 版本,包括:交互式命令式編程的及早求值,TensorFlow 程序的優化編譯器 XLA,以及適用於移動和嵌入式設備的輕量級框架 TensorFlow Lite。目前,預編譯的 TensorFlow 二進制文件目前在 180 多個國家的下載量已經超過一千萬次,GitHub 上的源代碼如今已經有超過 1200 個貢獻者。
今年 2 月,咱們舉辦了第一屆 TensorFlow 開發者峯會,450 多人前來山景城現場參加活動,全球觀看人數 6500 萬,包括在 35 多個國家和地區舉辦的超過 85 場本地觀看活動。全部的會談都被記錄下來,會議主題包括新功能、使用 TensorFlow 的技巧,以及低級 TensorFlow 抽象的細節等。2018 年 3 月 30 日嗎,咱們將在灣區舉辦另外一個 TensorFlow 開發者峯會。
11 月,TensorFlow 記念開放源代碼項目兩週年。TensorFlow 是 GitHub 上的第一個機器學習平臺,也是 GitHub 上的五大軟件庫之一,被許多公司和組織所使用,GitHub 上與 TensorFlow 相關的軟件庫超過 24,500 個。如今,許多研究論文的研究成果都與開放源碼的 TensorFlow 實現一塊兒出版,使得社區可以更輕鬆地理解確切的使用方法,並重現或擴展本身的工做。
TensorFlow 也從其餘 Google 研究團隊的開源相關工做中獲益,其中包括 TensorFlow 中的生成對抗模型的輕量級庫 TF-GAN,用於處理晶格模型的一組估計器 TensorFlow Lattice,以及 TensorFlow 物體識別 API。 TensorFlow 模型庫隨着愈來愈多的模型不斷擴大。
除了 TensorFlow,咱們還在瀏覽器中發佈了 deeplearn.js,一個開源的硬件加速深度學習 API 應用(無需任何下載或安裝)。deeplearn.js 主頁有許多很好的例子,其中包括可使用網絡攝像頭進行訓練的計算機視覺模型「教育機器」,以及基於神經網絡的實時鋼琴演奏和演奏示例「演奏 RNN」。2018 年,咱們將嘗試將 TensorFlow 模型直接部署到 deeplearn.js 環境中。
TPUs
雲端 TPU 機器學習加速達 180 teraflops
大約五年前,咱們認識到深度學習會大大改變咱們所須要的硬件種類。深度學習計算的計算量很是大,但它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數、向量運算等)組成,它們對精度的下降容忍度很大。所以,咱們能夠利用這兩個屬性來構建可以很是有效地運行神經網絡計算的專用硬件。咱們爲 Google 的平臺團隊提供了設計輸入,由他們設計並生產了咱們的第一代 Tensor Processing Unit(TPU):一種旨在加速深度學習模型推理的單芯片 ASIC(推理是使用已通過訓練的神經網絡,與訓練不一樣)。咱們的數據中心使用這款第一代 TPU 已經三年了,而且已經被用於 Google 的每一個搜索查詢、Google 翻譯,Google 相冊中的圖片,AlphaGo 與李世石和柯潔的對戰,以及其餘許多研究和產品。六月份,咱們在 ISCA 2017 上發表了一篇論文,代表這款第一代 TPU 比現代 GPU 或 CPU 同類產品快 15 倍 - 30 倍,性能 / 功耗約提升 30 倍 - 80 倍。
雲端 TPU Pod 能夠提供高達 11.5 petaflops 的機器學習加速
隨着所使用的 TPU 設備數量增長,在 ImageNet 上進行的 ResNet-50 訓練實現接近完美的加速。
推理是很重要的,但加速訓練過程是一個更重要,也更難的問題。速度越快,咱們越有可能作出更多的突破。5 月份,咱們在 Google I / O 上發佈的第二代 TPU 是一個旨在加速訓練和推理的系統(定製 ASIC 芯片、電路板和互連),咱們展現了單個器件配置和一個叫作 TPU Pod 的多深度學習超級計算機配置。咱們宣佈,這些第二代設備將做爲雲端 TPU 在 Google 雲端平臺上線。同時,咱們還公佈了 TensorFlow 研究雲計劃(TFRC),該計劃旨在爲致力於免費訪問 1000 個雲端 TPU 的集羣頂級的 ML 研究人員提供解決方案。12 月,咱們能夠在 22 分鐘內在 TPU Pod 上訓練一個達到高精確度的 ResNet-50 ImageNet 模型,而一個傳統的工做站完成這一任務須要幾天甚至更長時間。咱們認爲,以這種方式縮短研究週期將大大提升 Google 的機器學習團隊以及全部使用雲端 TPU 組織的工做效率。