近期,Google Deep Mind團隊提出了一個機器學習模型,並起了一個特別高大上的名字:神經網絡圖靈機,我爲你們翻譯了這篇文章,翻譯得不是特別好,有些語句沒讀明白,歡迎你們批評指正
算法
原論文出處:http://arxiv.org/pdf/1410.5401v1.pdf。api
版權全部,禁止轉載。網絡
神經網絡圖靈機
Alex Graves gravesa@google.com
Greg Wayne gregwayne@google.com
Ivo Danihelka danihelka@google.com架構
Google DeepMind, London, UK機器學習
摘要
本文經過引入一個使用注意力程序進行交互的外部存儲器(external memory)來加強神經網絡的能力。新系統能夠與圖靈機或者馮·諾依曼體系相類比,但每一個組成部分都是可微的,可使用梯度降低進行高效訓練。初步的結果顯示神經網絡圖靈機可以從輸入和輸出樣本中推理出(infer)簡單的算法,如複製、排序和回憶。
1. 簡介
計算機程序在執行計算任務的過程當中(Von Neumann, 1945)使用了三個基本機制:初等運算(如算術操做),邏輯控制流(分支循環)和可讀寫的存儲器。雖然在建模複雜數據方面取得了普遍的成功,現代機器學習理論卻廣泛忽略了對控制流和存儲器的使用。
因爲其對帶有時間屬性的數據的進行學習和複雜轉換的能力,遞歸神經網絡脫穎而出。進一步,RNN又被證實是圖靈徹底等價的 (Siegelmann and Sontag, 1995),於是只要合理建模,它就能夠模擬任何計算過程。可是理論上可行不表明實踐中容易實現。爲此,咱們加強了標準遞歸網絡的能力從而simplify the solution of algorithmic tasks。這個加強方案主要是依賴一個較大的、可尋址的存儲器,而類似地,圖靈機是使用一個無窮存儲帶來加強有窮狀態機,於是,咱們稱這種新設備爲」神經網絡圖靈機」。不一樣於圖靈機的是,NTM是一個可微的計算機,可以使用梯度降低進行訓練,對於學習程序來講是一個很實用的機制。
在人類識別能力中,the process that shares the most similarity to algorithmic operation is known as 「working memory.」。在神經生理學中,工做記憶的運行機制尚不清楚,根據字面意思,能夠理解爲是信息的短時間存儲和基於規則的操做集合(Baddeley et al., 2009)。在計算機術語中,這些規則就是程序,存儲的信息構成了這些程序的參數。既然NTM被設計用來對「快速建立的變量」應用近似的規則,因此它模仿了一個工做記憶系統。快速建立的變量(Rapidly-created variables) (Hadley, 2009) 是能夠快速綁定到存儲槽的數據,就像傳統計算機中數字3和4被放在寄存器而後相加獲得7(Minsky, 1967)。因爲NTM架構使用了注意過程來對存儲器進行選擇性讀寫,因此NTM使用了另外一個類似的工做記憶模型。與大多數工做記憶模型相比,咱們的架構可以學習使用他的工做記憶,而不須要爲符號數據引入一系列固定的程序。
本文首先對在心理學、語言學和神經科學以及人工智能和神經網絡等領域與工做記憶相關的研究作一簡單回顧。而後描述咱們的主要工做,一個存儲架構和注意力控制器,而且咱們相信這個控制器能夠知足簡單程序的概括(induction)和執行(execution)這類任務的性能要求。爲了測試這個結構,咱們設計了一些問題,並給出了詳細的測試結果。最後總結這個架構的有點。
2. 基礎研究
更多和更佳閱讀體驗,前往主站性能