深度學習的靈感起源多是神經科學,但近年來的發展毫無疑問已經自成一派,(幾乎)與神經科學無關了。機器學習專家們感興趣的是如何進一步優化他們的算法;神經科學家們則更想知道人腦,而非深度網絡們,是如何工做的。算法
這一 「大腦電路」 圖像同時被計算機學家們和生物學家們兩方面所擯棄——它既不是一副真正的深度網絡結構圖,也不能描繪大腦的工做原理。bootstrap
Konrad Kording 試圖改變這一趨勢,重啓神經科學和機器學習之間的對話。他與 Adam Marblestone (MIT Media Lab) 以及 Greg Wayne (Google Deepmind) 合做的文章《走向深度學習與神經科學的結合》闡述了這一理念,6月存檔於bioRxiv,9月發表於《計算神經科學前沿》。promise
一些讀者可能看過 神經科學家能理解微處理器嗎?大數據時代神經科學的理論困境,也是介紹 Kording 的做品。若是說上一篇文章提出了一個尖銳的問題——神經科學現有研究手段是否使人滿意——這篇文章或許能夠被看做是提出瞭解決問題的可能途徑之一:採納深度學習中發展出的思想來研究大腦。文章很長,涉及的內容較多,在這裏先只介紹整體思路,許多分支儘管有趣會暫時略過。十分推薦閱讀原文(開放訪問)。網絡
做者首先指出現代機器學習的三個特徵:app
指出上面的三個機器學習特徵後,做者提出了三個假說:框架
老實說,我6月份看到這裏的感受是——機器學習
好坑爹!分佈式
看上去這像是又一篇空洞而無解釋力的腦洞文章:成本函數是一個特別寬泛的概念,爲神經系統的活動找到成本函數很平凡。假說二明顯是個補丁嘛!找不到全局成本函數就說是局部的,又怕時間上不穩定就說是發展的結果。。。假說三什麼都沒說啊,腦區專業化分工誰不知道?ide
就這樣,我把文章丟到一邊。隔了三個月文章竟然過了評審,才又下了新版原本看。模塊化
此次我先跳到最後看告終論,結果一會兒就被吸引住了:
In other words, this framework could be viewed as proposing a kind of 「society」 of cost functions and trainable networks, permitting internal bootstrapping processes reminiscent of the Society of Mind ( Minsky, 1988). In this view, intelligence is enabled by many computationally specialized structures, each trained with its own developmentally regulated cost function, where both the structures and the cost functions are themselves optimized by evolution like the hyperparameters in neural networks.雖然只不過是換了句話來講,不知怎麼就以爲很符合直覺了。也許是閔斯基的大名加持,不過更可能的是成本函數用生物學家的話來講就是驅動力 (drive),而驅動力的多元化是我最近剛好在思考的一個問題。
換句話說,這一框架能夠被當作是一種由成本函數和可訓練網絡所構成的「社會」,從而實現相似於閔斯基在《心靈的社會》中提到的內在自舉過程。在這一觀點中,智能是由許多特別的計算結構所實現的,每個是由其受控於發展的成本函數所訓練,而結構自己和成本函數都像超參數同樣由進化所優化 。
上面是本篇嘴炮文章的惟一一副示意圖。圖 A 是傳統機器學習的典型結構,紅色虛線爲成本函數(以偏差的形式輸入網絡)。圖 B 則是假想的大腦神經網絡,成本函數是根據外部輸入在系統內部計算而得出的。圖 C 中,多個不一樣腦區分別根據不一樣的成本函數訓練,並彼此互相影響。
一個試圖統一機器學習與神經系統的理論所遇到的第一個詰難必定是:神經系統怎麼可能實現反向傳播 (backpropagation)???
這是一個首要的問題,做者一口氣寫了八頁紙。其核心思想爲
(a) the brain has powerful mechanisms for credit assignment during learning that allow it to optimize global functions in multi-layer networks by adjusting the properties of each neuron to contribute to the global outcome, and that (b) the brain has mechanisms to specify exactly which cost functions it subjects its networks to, i.e., that the cost functions are highly tunable, shaped by evolution and matched to the animal's ethological needs. Thus, the brain uses cost functions as a key driving force of its development, much as modern machine learning systems do.
(a) 大腦有足夠強力的機制來解決功勞分配問題。經過改變多層網絡中每一個神經元的性質, 大腦能夠優化總體的成本函數。
(b) 大腦有機制爲其各網絡精確分配不一樣的成本函數,即, 成本函數很是可控,受到進化和動物自身生態需求的調控。
所以, 大腦將成本函數做爲其發展的決定性驅動力,正如當今的機器學習系統同樣。
全文太 luo 長 li 不 luo 翻 suo,在這裏只提一些看起來有趣的模型。(過於技術化,暫時放到文章末尾)
之因此提出假說,固然是爲了指導實踐——是否有可能檢驗「大腦中有多種多樣的成本函數來指導神經迴路的學習」這一假設呢?
1. 經過猜想成本函數能夠預測網絡的狀態:網絡應當處於該成本函數所指定的優化狀態。
2. 對成本函數的優化必然涉及到參數空間的梯度降低。或者說,在梯度降低方向的運動應當多於垂直方向的無心義旋轉。若是能夠觀測神經網絡中的權重的話(看到這裏我真的笑出聲哈哈哈哈哈哈),應該能夠發現權重在進行梯度降低。
3. 根據1,外界干擾將使系統偏離優化狀態。經過改變突觸的權重,咱們能夠產生一個小的干擾,並預測系統將回歸到同一個優化狀態。這在運動領域已經開始變得可能(經過腦機接口BMI)。
4. 若是咱們知道哪些細胞和鏈接負責傳遞偏差信號,那麼能夠經過刺激指定的鏈接來給系統強加一個用戶定義的成本函數。這將等同於把相關腦回路當作一個可訓練的深度網絡,從而研究其學習。在另外一端,也能夠經過腦機接口輸入新的信息來研究其行爲是否符合優化原則 (Dadarlat et al., 2015)。
5. 經過假想的候選成本函數來訓練人工神經網絡,能夠和實際腦回路進行對比來測試假說(這一方法已經被多人應用)
做者相信大腦是進化所產生的隱態機器學習機制。那麼大腦應該能夠高效地優化多種數據下的多種成本函數。事實上,相比於現有的機器學習系統,大腦的硬件十分緩慢(受限於生化反應的速率);而對非線性,不可微分,時間上隨機,基於脈衝的擁有大量反饋鏈接的系統如何進行優化,咱們所知甚少。在系統構架層面,大腦可用的刺激展現次數少,做用於多個不一樣的時間框架,並採用主動學習。若是大腦果真是機器學習的範例(特別地,若是它的確解決了多層網絡的功勞分配問題),那麼咱們將學到不少有用的優化算法。
另外一方面,即便大腦並不使用反向傳遞,咱們也將學到一種全新的非反向傳遞的技巧。
機器學習領域中已經開始研究如何用網絡產生成本函數 (Watter et al., 2015)。經過考察大腦如何在發展過程當中逐漸產生和適用不一樣的成本函數將幫助咱們在機器學習中更好地設計成本函數以及層級行爲。
機器學習正在發生的結構多元化亦能夠從大腦結構的多元化中獲益。
The brain combines a jumble of specialized structures in a way that works. Solving this problem de novo in machine learning promises to be very difficult, making it attractive to be inspired by observations about how the brain does it.
大腦將一堆特殊結構以一種有效的方式組合在一塊兒。在機器學習中從新解決這一問題將會很是困難——這就是爲何經過觀察大腦如何作到這一點如此有吸引力。
深度學習之因此成功,是由於其將機器學習分紅了兩個部分:1 一個算法,反向傳播,用於高效而分佈式地進行優化; 2 將任何問題轉換成合適的成本函數的技巧。今天的深度學習,大部分的工做都在尋找更合適的成本函數。
大腦在進化中是否也找到了這一方法呢?做者認爲是的:不一樣的皮層區域可能分享相同的優化算法(微結構),但接受不一樣的數據和成本函數。事實上,針對制定皮層區域的成本函數多是做爲輸入與數據自己一同傳遞的。
另外一種可能則是,在皮層微結構(迴路)中,一部分鏈接和學習規則決定了優化算法(固定);另外一些則決定成本方程(可變)。這一思路可類比於FPGA (這裏不得不吐槽真是腦洞大開)。
文章的結論部分頗有共鳴,這裏大體翻譯以下。
因爲大腦的複雜度和多變性,純粹的自下而上的神經數據分析面臨解釋的困難。理論框架能夠被用於約束假說空間,從而容許研究者先解決高層的原則和系統結構,再「放大」並解決細節。現有的自上而下的理論框架包括熵最大化,有效編碼,貝葉斯推測的可靠近似,預測偏差的最小化*,吸引子動力學,模塊化,符號運算能力,等等 (Pinker, 1999; Marcus, 2001; Bialek, 2002; Knill and Pouget, 2004; Bialek et al., 2006; Friston, 2010)。許多這類自上而下的理論本質上都是對單一計算結構的單一成本函數的優化。咱們將這些假說進行擴展,提出多元化和發展中的成本函數羣體,以及多個專業化的子系統。
許多神經科學家專一於尋找「神經編碼」,即哪些刺激易於產生指定神經元或腦區的活動。可是若是大腦的確對成本函數進行優化,那麼咱們就要注意到簡單的成本函數能夠產生複雜的刺激迴應。這可能使咱們轉向另外一類問題。神經科學與機器學習間更加深刻的對話能夠幫助澄清不少問題。機器學習大部分都專一於更快地進行神經網絡中從頭至尾的梯度降低。神經科學可能爲機器學習帶來許多層面的啓示。大腦所採用的優化算法通過了數百萬年的進化。大腦可能找到了使用異質化的在發展中彼此影響的成本函數羣體經過引導無監督學習後果來簡化學習的方法。大腦中進化出的各類專門化結構可能提示咱們如何提升面臨多種計算問題和跨越多個時間框架時學習系統的效率。經過尋求神經科學提供的洞見,機器學習可能邁向在一個結構異質化,標記數據有限的世界中進行學習的強人工智能。
在某種意義上咱們的假說與流行理論相反。並無單一的優化機制,單一的成本函數,單一的表現形式,或者同質化的結構。全部這些異質化的元素由優化內部產生的成本函數這一原則統一在一塊兒。許多早期人工智能途徑都拒絕單一理論。例如,Minsky 和 Papert 在 《心靈的社會》中的工做,以及更普遍的,鏈接主義系統中由遺傳預備和內部自引導的發展理論,強調智能須要一個由內部檢測者和評判者組成的系統,特殊化的交流與存儲機制,以及簡單控制系統的層級化組織。
在這些早期工做進行時,人們還不知道基於梯度的優化能夠帶來強大的特徵表明和行爲政策。這裏提出的理論能夠被看做是針對流行的從頭至尾的優化,從新提出異質化的方法。換句話說,這一框架能夠被當作是一種由成本函數和可訓練網絡所構成的「社會」,從而實現相似於閔斯基在《心靈的社會》中提到的內在自舉過程。在這一觀點中,智能是由許多特別的計算結構所實現的,每個是由其受控於發展的成本函數所訓練,而結構自己和成本函數都像超參數同樣由進化所優化 。
---被放到末尾的一些技術細節---
2.1 局部自組織和優化不須要多層功勞分配 Local Self-organization and Optimization without Multi-layer Credit Assignment
Pehlevan and Chklovskii 2015 提出,一類Hebbian可塑性可被看作是提取輸入主成分(PC)的過程,從而最小化重構偏差。
2.2. 優化的生物基礎 Biological Implementation of Optimization
2.2.1. 多層網絡須要高效的梯度降低 The Need for Efficient Gradient Descent in Multi-layer Networks
梯度降低的重要性衆所周知,這裏很少談。知乎有一個話題就是專門講梯度降低的。
2.2.2. 梯度降低的生物學近似 Biologically Plausible Approximations of Gradient Descent
大腦中可能用來實現對梯度降低算法近似的可能機制意外地多。其共同點爲利用反饋鏈接傳播偏差。一個例子是 O'Reilly 的 XCAL 算法 (O'Reilly et al., 2012),經過本地的 Hebbian 學習法則實現了偏差的反向傳播。
實現反向傳播的另外一個可能途徑是基於脈衝時間的可塑性 (STDP)。Hinton 就將此闡釋爲神經元能夠經過脈衝速率的時間導數來編碼反向傳播所需的偏差導數 (Hinton, 2007, 2016)。
還有一種可能的機制則涉及到獨立於前饋鏈接強度的隨機反饋鏈接。被稱爲「反饋對齊」的模型中,經過突觸正規化和前饋與反饋鏈接的符號一致性,能夠實現幾乎和反向傳播同樣好的偏差計算 (Liao et al., 2015)。
2.2.2.1. 時間功勞分配 Temporal credit assignment:
以上討論中一個重要的未解決問題是時間功勞分配:在反覆網絡 (recurrent nets) 中,爲了實現「時域反向傳播 (BPTT)」,機器學習使用的方法是把網絡在時間中展開 (unroll)。神經系統彷佛顯然沒法將本身在時間中的活動展開來進行反向傳播。
做者給出了幾個解決思路。其一爲經過記憶體來把時間上的功勞分配問題空間化 (例如 Weston et al., 2014)。
另外一種方案來自於對反覆網絡監督式學習的研究。在 Sussilo and Abbott, 2009 所提出的FORCE 模型中,網絡的輸出被鉗在指定目標,同時由網絡內部產生的隨機漲落提供反饋信號來更新權重。
2.2.2.2. 脈衝網絡 Spiking networks
2.3. 生物學習的其餘原則 Other Principles for Biological Learning
很明顯,即便大腦確實採用了近似於反向傳播的優化算法,也不能排除其餘徹底不一樣的算法。
2.3.1. 利用生物神經基礎 Exploiting Biological Neural Mechanisms
特別地,當咱們考察單個神經元的結構就會發現(這些都是老生常談):神經元的樹突能夠進行局部運算;神經元包含多個部分 (compartments),每一個神經元能夠視做一個局部網絡;神經元產生動做電位時,反向(向樹突)傳播的電信號更增強烈地傳向最近活動的分支,可能簡化了功勞分配問題(Körding and König, 2000);等等。
生物神經網絡一個重要的特徵是神經調節劑:同一個神經網絡根據神經調節狀態的不一樣,能夠被看做是在多個重合的迴路之間進行切換 (Bargmann, 2012; Bargmann and Marder, 2013)。這可能容許不一樣迴路之間分享習得的權重。
2.3.2. 皮層中的學習 Learning in the Cortical Sheet
皮層的6層結構很是引人注目,有多個學習理論試圖解釋這一不斷重複的結構。一般都認爲皮層經過預測進行無監督學習(O'Reilly et al., 2014b; Brea et al., 2016)。這其中包括了直接將皮層結構對應到貝葉斯推理中信息傳遞的努力(Lee and Mumford, 2003; Dean, 2005; George and Hawkins, 2009),而另外一些工做則試圖用學習理論來解釋觀測到的皮層活動。
這些和其餘一些關於皮層運做的初步理論都超越了反向傳播。
---
Marblestone, A. H., Wayne, G. & Kording, K. P. Toward an Integration of Deep Learning and Neuroscience. Front. Comput. Neurosci.10, 1–61 (2016).
Frontiers | Toward an Integration of Deep Learning and Neuroscience
Bargmann, C. I. (2012). Beyond the connectome: how neuromodulators shape neural circuits. Bioessays 34, 458–465. doi: 10.1002/bies.201100185.
Bargmann, C. I., and Marder, E. (2013). From the connectome to brain function. Nat. Methods 10, 483–490. doi: 10.1038/nmeth.2451
Bialek, W. (2002). 「Thinking about the brain,」 in Physics of Bio-Molecules and Cells, Vol. 75, eds F. Flyvbjerg, F. Jülicher, P. Ormos, and F. David (Berlin; Heidelberg: Springer), 485–578.
Bialek, W., De Ruyter Van Steveninck, R., and Tishby, N. (2006). 「Efficient representation as a design principle for neural coding and computation,」 in 2006 IEEE International Symposium on Information Theory, (Los Alamitos: IEEE), 659–663.
Brea, J., Gaál, A. T., Urbanczik, R., and Senn, W. (2016). Prospective coding by spiking neurons. PLoS Comput. Biol. 12:e1005003. doi: 10.1371/journal.pcbi.1005003
Dadarlat, M. C., O'Doherty, J. E., and Sabes, P. N. (2015). A learning-based approach to artificial sensory feedback leads to optimal integration.Nat. Neurosci. 18, 138–144. doi: 10.1038/nn.3883
Dean, T. (2005). 「A computational model of the cerebral cortex,」 in Proceedings of the 20th National Conference on Artificial Intelligence(Pittsburg, PA).
Enel, P., Procyk, E., Quilodran, R., and Dominey, P. F. (2016). Reservoir computing properties of neural dynamics in prefrontal cortex. PLoS Comput. Biol. 12:e1004967. doi: 10.1371/journal.pcbi.1004967
Friston, K. (2010). The free-energy principle: a unified brain theory? Nat. Rev. Neurosci. 11, 127–138. doi: 10.1038/nrn2787
George, D., and Hawkins, J. (2009). Towards a mathematical theory of cortical micro-circuits. PLoS Comput. Biol. 5:e1000532. doi: 10.1371/journal.pcbi.1000532
Hinton, G. (2007). 「How to do backpropagation in a brain,」 in Invited Talk at the NIPS'2007 Deep Learning Workshop (Vancouver, BC).
Hinton, G. (2016). 「Can the brain do back-propagation?,」 in Invited talk at Stanford University Colloquium on Computer Systems (Stanford, CA).
Knill, D., and Pouget, A. (2004). The Bayesian brain: the role of uncertainty in neural coding and computation. Trends Neurosci. 27, 712–719. doi: 10.1016/j.tins.2004.10.007
Körding, K., and König, P. (2000). A learning rule for dynamic recruitment and decorrelation. Neural Netw. 13, 1–9. doi: 10.1016/S0893-6080(99)00088-X
Lee, T. S., and Mumford, D. (2003). Hierarchical Bayesian inference in the visual cortex. J. Opt. Soc. Am. A Opt. Image Sci. Vis. 20, 1434–1448. doi: 10.1364/JOSAA.20.001434
Liao, Q., Leibo, J. Z., and Poggio, T. (2015). How important is weight symmetry in backpropagation? arXiv:1510.05067.
Marcus, G. (2001). The Algebraic Mind: Integrating Connectionism and Cognitive Science. Cambridge, MA: MIT Press.
O'Reilly, R. C., Wyatte, D., and Rohrlich, J. (2014b). Learning through time in the thalamocortical loops. arXiv:1407.3432, 37.
Pehlevan, C., and Chklovskii, D. B. (2015). 「Optimization theory of hebbian/anti-hebbian networks for pca and whitening,」 in 53rd Annual Allerton Conference on Communication, Control, and Computing (Monticello, IL), 1458–1465.
Pinker, S. (1999). How the mind works. Ann. N.Y. Acad. Sci. 882, 119–127.
Sussillo, D., and Abbott, L. (2009). Generating coherent patterns of activity from chaotic neural networks. Neuron 63, 544–557. doi: 10.1016/j.neuron.2009.07.018.
Watter, M., Springenberg, J., Boedecker, J., and Riedmiller, M. (2015). 「Embed to control: a locally linear latent dynamics model for control from raw images,」 in Advances in Neural Information Processing Systems (Montreal, QC), 2728–2736.
Weston, J., Chopra, S., and Bordes, A. (2014). Memory networks. arXiv:1410.3916