Yann LeCun:學習世界模型,通向AI的下一步

機器之心整理。html

人工智能頂會 IJCAI 2018 的主要議程於昨日在瑞典首都斯德哥爾摩開始。昨天上午,Facebook 首席人工智能科學家、紐約大學教授 Yann LeCun 在會上發表了近一個小時,以《Learning World Models: the Next Step towards AI》爲主題的演講,引發了人們的普遍關注。本文將對 LeCun 的演講進行簡要介紹。

完整演講視頻:算法

v.qq.com/x/page/l072…
網絡

Yann LeCun 開場介紹說,當前幾乎全部的機器學習從業者在實踐中使用的都是監督式學習:向機器展現大量的樣本,而後告訴機器正確的答案與內部參數,而後就能作圖像識別之類的任務。而過去幾年,監督式學習有了極大的成功,應用也很是普遍。下圖對比了傳統機器學習與深度學習各自的特色。架構

深度學習的演講回溯到 20 世紀 50 年代,當時 AI 社區嘗試構建神經網絡。創建這樣略爲複雜的系統,你須要兩個基礎的運算:線性的加權和與非線性的激活函數。這裏,Yann LeCun 回顧了他們在 80 年代末期提出的用來識別數字的卷積神經網絡 LeNet5,從最初的識別單個目標發展到了識別多個目標。框架

很快,他們就創建了一個識別手寫文件的系統。在 1995 年,他們在 AT&T 完成了一個商業系統來讀取支票帳號。經歷了以下圖展現的過程。Yann LeCun 介紹了,這是上一波人工智能浪潮下的極大成功示例。以後,人們就對神經網絡的研究失去了興趣。一方面是準確率的緣由,還由於不少領域當時沒有足夠多的數據來訓練學習系統。機器學習

接着,Yann LeCun 介紹說,實際上在 1996-2001 年這段時間內,他並無研究機器學習,而是在研究其它東西,尤爲是圖像壓縮。ide

下圖是在 21 世紀初加入 NYU 以後用模仿學習作的研究。這個研究激發了 DARPA 的 LAGR 項目。函數

Yann LeCun 隨後回顧了卷積神經網絡在不一樣任務中的應用,包括用於自動駕駛汽車的目標檢測與語義分割等。這些基於視覺的任務絕大部分都須要卷積神經網絡的支持,固然也離不開並行計算設備的支持。性能

第一個獲得普遍關注與應用的卷積神經網絡是 2012 年提出來的 AlexNet,它相比於 LeNet-5 最大的特色是使用更深的卷積網絡和 GPU 進行並行運算。AlexNet 還應用了很是多的方法來提高模型性能,包括第一次使用 ReLU 非線性激活函數、第一次使用 Dropout 以及大量數據加強而實現網絡的正則化。除此以外,AlexNet 還使用了帶動量的隨機梯度降低、L2 權重衰減以及 CNN 的集成方法,這些方法如今都成爲了卷積網絡不可或缺的模塊。學習

隨後在 ImageNet 挑戰賽中,卷積網絡的深度與性能都逐年提高。從 12 年到 16 年,參賽者使用的卷積神經網絡不斷加深,錯誤率也逐年降低。

以下所示,牛津大學 2014 年提出了另外一種深度卷積網絡 VGG-Net,與 AlexNet 相比,它的卷積核更小,層級更深。谷歌同年提出了 GoogLeNet(或 Inception-v1),該網絡共有 22 層,且包含了很是高效的 Inception 模塊。後來到了 15 年,何愷明等人提出的深度殘差網絡驟然將網絡深度由十幾二十層提高到 152 層,且性能大幅提升。

此外,去年提出的 DenseNet 進一步解決了 ResNet 遺留下的梯度問題,並得到了 CVPR 2017 的最佳論文。DenseNet 的目標是提高網絡層級間信息流與梯度流的效率,並提升參數效率。它也如同 ResNet 那樣鏈接前層特徵圖與後層特徵圖,但 DenseNet 並不會像 ResNet 那樣對兩個特徵圖求和,而是直接將特徵圖按深度相互拼接在一塊兒。

那麼爲何卷積神經網絡在計算機視覺任務上如此高效?Yann LeCun 隨後就對深度卷積網絡的表徵方式作了介紹。他代表對於圖像數據來講,數據的信息與結構在語義層面上都是組合性的,總體圖像的語義是由局部抽象特徵組合而成。所以深度網絡這種層級表徵結構能依次從簡單特徵組合成複雜的抽象特徵,以下咱們能夠用線段等簡單特徵組合成簡單形狀,再進一步組合成圖像各部位的特徵。

卷積神經網絡在目標識別、目標檢測、語義分割和圖像描述等領域都有很是多的應用,而這些實現不少都依賴於深度學習框架。LeCun 隨後重點介紹了 PyTorch 與 Detectron,其中 PyTorch 由於採用了動態計算圖而受到了普遍的關注,它也是當前發展最快的框架之一。

以下所示,Facebook AI 研究院開源的 Detectron 基本上是業內最佳水平的目標檢測平臺。據 LeCun 介紹,該項目自 2016 年 7 月啓動,構建於 Caffe2 之上,目前支持目標檢測與語義分割算法,其中包括 Mask R-CNN(何愷明的研究,ICCV 2017 最佳論文)和 Focal Loss for Dense Object Detection(ICCV 2017 最佳學生論文)等優秀的模型。

最後,做爲對卷積神經網絡的總結,LeCun 帶咱們回顧了卷積神經網絡的應用,包括醫療影像分析、自動駕駛、機器翻譯、文本理解、視頻遊戲和其它學科研究。

Yann LeCun 談到當前深度學習缺少推理能力,所以將來的一個重點發展方向就是深度學習和推理的結合。

人們已經在多個方向上進行嘗試。例如,在網絡中增長記憶加強模塊,典型的工做在下圖中列出,這是實現推理的第一步。在對話模型中,因爲對話的輪換和非連續的特色,經過加強記憶,有助於預測能力的提升,進而能實現長期而有效的對話。

爲何要強調記憶建模的重要性呢?在強化學習中,無模型的強化學習訓練須要大量的嘗試才能學會一項任務。

所以此類方法在遊戲中表現良好,如 FAIR、DeepMind、OpenAI 等以前都已在許多遊戲上實現接近甚至超越人類的 AI 系統,但這些系統並無達到現實應用的水平。

由於現實環境遠遠比遊戲中的環境要複雜得多,不管是變量複雜度仍是不肯定性方面,對此,無模型的強化學習系統面對的探索空間是至關巨大的。並且,不像 AlphaGo 那樣能夠在計算機上模擬成千上萬次比賽,現實世界環境是沒法被「加速」的,有些試驗還涉及很大的風險,這也大大限制了系統的訓練資源。

那麼目前來看,人工智能到底缺乏了什麼?監督學習須要太多的樣本,強化學習須要太多的嘗試,AI 系統缺少常識。

Yann LeCun 總結了一下這兩類系統的缺點:缺少獨立於任務的背景知識;缺少常識;缺少預測行爲後果的能力;缺少長期規劃和推理的能力。簡言之就是:沒有世界模型;沒有關於世界運行的通用背景知識。用更通常的語言來說就是,目前的機器沒法在內心想象(表徵)世界,而只是像殭屍同樣被氣味驅使着(無心識地)行動。記憶建模只是一方面,創建完整的世界表徵纔是咱們真正須要的。

在現實應用層面,Yann LeCun 總結道,利用現有的監督學習和強化學習技術,咱們能夠在自駕汽車、醫療圖像分析、個性化醫療、語言翻譯、聊天機器人(有用但還很蠢)、信息搜索、信息檢索、信息過濾以及其它領域中取得不錯的進展,但仍然沒法實現常識推理、智能我的助理、智能聊天機器人、家庭機器人以及通用人工智能等。

而後,Yann LeCun 指出咱們能夠從嬰兒的學習方式上得到啓發。嬰兒對外部世界的概念學習大部分是經過觀察,僅有小部分是經過交互,而視覺比觸覺、體感等能捕獲更多、更完整的外部信息。那麼機器如何作到這一點?其實,這種狀況不止發生在人身上,動物也是如此。LeCun 隨後展現了一幅嬰兒和大猩猩觀看魔術的圖,並解釋說,當違反世界模型,也就是當咱們觀察到一些不尋常、與世界模型不匹配的東西時,咱們的注意力就會被調動(如嬰兒和大猩猩看到魔術表演會大笑就是由於世界模型被違反了)。

接下來,LeCun 解釋了突破強化學習現狀的解決方法:自監督學習,它能經過輸入的某一部分預測其它部分。在空間層面上包括圖像補全、圖像變換等,在時間層面上包括時序數據預測、視頻幀預測等。

Yann LeCun 總結了三類學習範式,分別是強化學習、監督學習和自監督學習,相比於強化學習和監督學習,自監督學習將輸入和輸出當成完整的總體。它們的區別和聯繫在於反饋信息的逐漸增多,模型表徵複雜度、適用任務類型也大幅增長,同時任務中涉及的人類工程比重也大大減小,意味着自動化程度的增長。

LeCun 還用以前常用的蛋糕比喻來講明三者的關係,以前蛋糕胚表明的是無監督學習,如今則被換成自監督學習。

Hinton 在自監督學習領域探索了多年,LeCun 以前一直持懷疑態度,如今終於承認了這個方向。

機器學習的將來不會是監督學習,固然也不會純粹是強化學習,它應該是包含了深度模塊的自監督學習。

那麼下一個問題是,自監督學習可以產生通常的背景知識嗎?這裏重點是模型須要推斷出背景知識,它須要從真實世界收集的背景知識推理出當前它但願預測的任務。以下 LeCun 舉了一個例子,若是接收到一個天然語句,模型應該推斷出當前場景的各類背景知識。

對於基於模型的經典最優控制,咱們可能須要初始化一個序列來模擬世界,並經過梯度降低調整控制序列來最優化目標函數。而目前咱們能夠經過強化學習的方式模擬世界,這些模型不只須要預測下一個可能的動做,同時還須要預測一系列可能的將來。

接下來 Yann LeCun 介紹了使用對抗訓練的視頻預測。他首先展現了預測無監督學習。人類是很擅長預測的,然而機器很難預測將來會發生什麼。近年來的研究中出現了一些使用「對抗訓練」的成功案例,可是仍有很長的路要走。Yann LeCun 用一個紐約公寓的視頻示例進行舉例說明。


語義分割空間的視頻預測

這部分 Yann LeCun 介紹了當前語義分割預測的現狀。

Latent-Variable Forward Models for Planning and Learning Policies

下圖展現了用於推斷動做和潛在變量的模型架構。

而後 Yann Lecun 展現了一個現實世界的真實案例。

最後,Yann Lecun 總結了技術和科學之間的互相驅動和促進,如望遠鏡和光學、蒸汽機和熱力學、計算機和計算機科學等。並提出了疑問:什麼至關於智能的「熱力學」?

  • 人工智能和天然智能背後是否存在底層原則?
  • 學習背後是否存在簡單的準則?
  • 大腦是不是進化產生的大量「hack」的集合?

視頻連接:www.facebook.com/ijcaiecai18…

相關文章
相關標籤/搜索