Yoshua Bengio,電腦科學家,畢業於麥吉爾大學,在MIT和AT&T貝爾實驗室作過博士後研究員,自1993年以後就在蒙特利爾大學任教,與 Yann LeCun、 Geoffrey Hinton並稱爲「深度學習三巨頭」,也是神經網絡復興的主要的三個發起人之一,在預訓練問題、爲自動編碼器降噪等自動編碼器的結構問題和生成式模型等等領域作出重大貢獻。他早先的一篇關於語言機率模型的論文開創了神經網絡作語言模型的先河,啓發了一系列關於 NLP 的文章,進而在工業界產生重大影響。此外,他的小組開發了 Theano 平臺。網絡
下文是Yoshua Bengio 2016年5月11日在Twitter Boston的演講PPT實錄,由新智元整理翻譯,若是PPT看不過癮,你還能夠複製連接直接觀看視頻:https://www.periscope.tv/hugo_larochelle/1MYxNDlQkPpGw架構
在新智元公衆號後臺回覆「0516」可下載所有46張PPT。框架
原標題:天然語言詞義中的深度學習機器學習
從ML到AI的三個關鍵要素:jsp
1. 許多&許多的數據分佈式
2. 很是靈活的模型函數
3. 強大的先驗知識,能打破「維度的詛咒」學習
突破「維度的詛咒」測試
咱們須要在機器學習模型中建立組合詞優化
正如人類語言會分析組合詞,爲組合詞的概念賦予表示和意義
對組合詞意挖掘,在指代的能力上得到指數級的增加
分佈式表示/嵌入:特徵學習
深度架構:多層次的特徵學習
先驗知識(Prior):組合性在有效地描述咱們所處的世界時很是有用
深度學習理論的進展
分佈式表示的指數級優點
深度的指數級優點
迷思:非凸性 ∉ 局部最小值
分佈式表示的指數級優點
比起最近鄰法或分類法的模型,學習一系列不相互排斥的特徵,在數據上更有效。
相關推薦論文
深度的指數級優點
迷思正在被打破:神經網絡中的局部最小值
凸性並非必須的
推薦論文
鞍點
局部最小值掌控着低維度,可是鞍點掌控高維度
大多數的局部最小值都很接近底部(全局最小值偏差)
爲何N-gram 在泛化上表現不好
神經語言模型
下一個挑戰:詞序中豐富的語義表示
捕捉詞義上使人印象深入的進展
更容易的學習:非參數的(查表)
繪製序列來實現更加豐富和完整的指稱進行優化的問題
好的測試案例:自動編碼框架的機器翻譯
深度學習中的聚焦(Attention)機制
考慮一個輸入(或者中間的)序列或者圖像
考慮一個高層次的指稱,經過設置權重或者每一個輸入位置的機率,正如MLP中所產生的那樣,運用到每個位置。
聚焦機制在翻譯、語音、圖像、視頻和存儲中的應用
端對端的機器翻譯
傳統的機器翻譯:經過類似度的最大化對若干個模型進行獨立地訓練,在N型圖中獲的頂部、底部得到邏輯迴歸。
神經語言模型已經被證實在廣泛化的能力上優於N型圖模型。
爲何不訓練一個神經翻譯模型,端對端地評估P(目標句子|源句子)
2014:神經機器翻譯得到突破的一年
主要論文
早期的工做
編碼-解碼框架
中間的意義表示=廣泛的表示
編碼:從詞的排列到句子表明
解碼:從表明到詞序的分佈
輸入側的雙向RNN
模仿Alex Graves在手寫體上的工做
聚焦:相關論文和舊論文
軟聚焦VS隨機硬聚焦
聚焦爲基礎的神經機器翻譯
預測對齊
法語和德語不一樣的對齊
在純AE模型上的提高
RNNenc:對整個句子進行編碼
RNNsearch:預測平面圖
BLEU 在所有的測試集中賦分(包括UNK)
週期性網絡和聚焦機制下的端對端機器翻譯
從零開始,一年後的現狀:
英語到德語
從圖像到文字:聚焦模型下的字幕生成
聚焦選擇部分圖像,同時,生成對應描述詞
說出看到的東西
展現、參加和講述:用視覺聚焦來達到神經圖像字幕生成
好的識別
壞的識別
有趣的延伸
用重要性抽樣近似值高效地處理大量的詞彙(最小批的詞=負面的例子)(Jean al, ACL’2015)
多語種 NMT:共享的編碼器和解碼器,在語言配對中,聚焦機制是一個條件
字符層次的NMT
用共享聚焦機制達成的多語言神經機器翻譯
每一種語言對應1 編碼器+ 1解碼器
一個共享的聚焦模型,還有每一種語言編碼和解碼規定的「表明翻譯函數」
用共享聚焦機制達成的多語言神經機器翻譯
遷移學習起了做用
在大多數狀況下,對定位成對的平行語料庫有益
基於字符的模型
在基於N型圖的模型中幾乎是不可能的;
可是,對於處理開放詞彙問題、拼寫錯誤而、音譯、數字等端對端的問題倒是有必要的;
對於詞彙並無清晰的區分或者組合線(讓詞彙量顯示)的語言來講是有必要的;
在詞的規律(前綴、後綴、鏈接等)上進行時是有必要的;
障礙:
對於RNNs:更長期的依賴性
較差的容量和計算率
2年前的前期實驗:比起基於詞彙的模型,可持續性要更差
基於字符的NMT實驗
2層的架構
更高級別的RNN動態地決定了什麼時候使用相似GRU的公式軟性地更新狀態
基於字符的NMT實驗
內存訪問中的聚焦模型
神經圖靈機器
內存網絡
使用一個聚焦機制形式來控制對存儲器的讀取和寫入
聚焦機制在內存上輸出一個softmax
從效率上看,softmax必須是稀疏的(大多數狀況下是0),例如,或許可使用一個混合圖表格式。
大型內存網絡:長期依存的稀疏內存訪問
一個外部存儲器中的狀態,能夠保存任意長的時間,直到被讀取或寫入
忘記=消失的梯度
內存=更大的狀態,避免遺忘或者消失的必要
延遲不表明能更進一步
在運行的項目:知識提取
學習從天然語言對事實的描述中填入記憶網絡
強迫神經網絡理解語言
從檔案中提取知識,並濃縮成可以使用的格式
下一個大難題:非監督式學習
最近的突破大多數都是在監督式深度學習中
非監督式學習中的真實挑戰
潛在的好處:
能處理海量的非標籤數據
針對觀察的變量,回答新的問題
正則化矩陣——遷移學習——領域自適應
更容易優化(局部訓練信號)
結構性的輸出
對於沒有特定模型或在主要模擬的RL來講頗有必要
結論
深度學習理論在許多前沿地帶都取得了顯著的進步:爲何能更好地泛化?爲何局部最小值不是人們考慮的問題?深度無監督學習的機率解釋。
聚焦機制讓學習者模型更好地作選擇,不論是軟聚焦還硬聚焦。
深度學習理論在機器翻譯和字幕生成上取得了巨大的成功。
在語音識別和視頻,特別是若是咱們使用深度學習理論來捕捉多樣的時標時,會頗有用。
深度學習理論可用於解決長期的依存問題,讓一些狀態持續任意長時間。
「招聘」
全職記者、編譯和活動運營
歡迎實習生
以及人工智能翻譯社志願者
詳細信息請進入公衆號點擊「招聘」
或發郵件至 jobs@aiera.com.cn