[深度學習大講堂]文化、進化與局部最小值

時間 2019-11-06

標籤深度學習講堂文化進化局部最小值简体版

原文原文鏈接

本文爲微信公衆號[深度學習大講堂]特約稿，轉載請註明出處

Reference：Culture vs Local Minima [Bengio.2012]

關於做者

首次看到Bengio教授這篇論文是在[對話機器學習大神Yoshua Bengio（下）]算法

這篇論文是提問時候偶然提到的，按照Question中說法：api

您(Bengio)是機器學習領域惟一公開的以深度學習來研究社會學的科學家。微信

因此相對於Hinton教授給咱們帶來生物神經方面的New Idea和Surprise（Hinton有劍橋認知心理學學士學位)網絡

從社會、文化角度擴展Deep Learning是很是有必要的，Bengio教授把重點放在了這個方向，其實和他的研究經歷有關。app

他是神經網絡(Forward-NN、Recurrent-NN)在天然語言處理(NLP)方向上推廣的重要貢獻人之一。[Bengio03]機器學習

若是你曾經品讀過他的100頁大論文 [Learning Deep Architectures for AI] ，就會不得不佩服Bengio教授的思想。ide

若是說Hinton創立了Deep Learning，那麼Bengio就是Deep Learning最好的佈道師和奠定人。svn

做爲一位堅持不加入任何商業公司的純粹學者、Quora最受歡迎的機器學習專家，他對Deep Learning和AI的貢獻很是大。函數

學習情結

1.1 學習的兩大動機

咱們爲什麼而學習？消磨人生？顯然不是。學習

人類的學習情結大體由兩方面構成：

(I) Predictive Criterion(預測):

咱們會不自覺的受到[時間訪問局部性]的浸染，即當前遭遇的知識(Context)頗有可能在近期再次相遇(Encounter)。

顯然，若是不對當前的Context進行剖析，那麼意味着將來屢次相遇時，沒法作出預測(Prediction)，得不償失。

貪心機制會誘導咱們儘早地對不肯定的Context學習，用成語來說就是「亡羊補牢，未爲遲也」。

(II) Reward Criterion(激勵)：

一些與生存有關的問題會被獨立誘導學習。

好比吃貨在獲取[如何知足口福]方面，顯然有很強的積極性。

又好比，爲了知足生理需求，人類在[性知識]方面的探索可謂是五花八門。

其中(I)普遍見於「監督學習」、「非監督學習」，(II)的相關工做由「強化學習」完成。

1.2 預測學習算法

「預測」顯然在學習進程中處於主體地位，也是神經網絡擬合模型的起源。

預測的相對肯定性創建在，以當前參數$\theta$對不肯定性樣本評估的[偏差]的[指望]:

$Criterion(\theta)=\int P(y)L(\theta,y)dy=E[L(\theta,y)]$

指望積分形式不是很直觀，它有更親切的表達形式：

$Criterion(\theta)=\frac{1}{N}\sum_{i=1}^{N}L(\theta,y)$

咱們熟知的大部分監督學習算法，其優化目標基本都是$\min \limits_{\theta} \, Criterion(\theta)$

顯然，當$\theta_{Optimization}\approx \theta_{Real}$，咱們認爲Optimization過程引導Agent完成了學習任務。

1.3 假設：優化

你以爲(II)是否很功利？顯然是，咱們人類只會貪婪地朝知足本身的目標發展，這是骨子裏的[目標性]。

你以爲(I)是否很功利？顯然也是，數學式不會給咱們反駁的機會，這也是骨子裏的[目標性]。

綜合(I)(II)，Bengio提出了第一個假設：

Optimization Hypothesis：When the brain of a single biological agent learns, it performs an approximate optimization with respect to some endogenous objective.

推理、而後誤入歧途

2.1 瞬時速度與平均速度

考慮一個高一物理題：

2330米的賽跑，跑道爲圈，某人以勻速跑完一圈用了10s。求平均速度、恰達終點時的瞬時速度？

解：

平均速度=0/10=0m/s

瞬時速度=2330/10=233m/s

這是一個有趣的問題，由於從微觀上來說，這我的很努力地跑，你們心知肚明。

可是，從宏觀上來說，他其實在原地踏步，浪費時間。

這樣的問題在天然界是廣泛存在的，貫穿[人類文明]的發展。

2.2 微觀視點：推理

推理(Inference)過程是至關微觀、細緻的，起碼它是神經元級別的變化。

非線性分類模型的拓撲結構，基本都有隱變量(Latent variables)。

隱變量通過非線性的激活(重視or不重視)，變成隱元(Hidden Units)，(注：SVM的隱元即支持向量)。

隱元介於輸入和輸出之間，包含着對輸入的[編碼信息]，解釋(explain)着當前的觀測樣本。

在Forward-NN裏，隱元只和上一層隱元(或輸入)鏈接[前向鏈接]，在Recurrent-NN裏，隱元還和當前層隱元鏈接[遞歸鏈接]。

推理是迭代的(iterative)，時間尺度爲[秒級]，不停地修改[Configurations]，儘量認同更多的(agree more)觀測樣本。

每次瞬時的變化(change)，意味着心智狀態(state of mind)的瞬變。

變化的跳躍範圍可能很大，由於神經元數量衆多，且很敏感，容易牽一髮而動全身。不像學習，是一個徐徐漸進的過程。

2.3 宏觀視點：學習

學習是一個漸進、積累的過程，時間尺度爲[分鐘級]。

推理算是學習的子過程，我的用一個有趣數學式來表達：

$Learning(t)=\int Inference(t)dt$

即對推理過程函數中的[時間]進行積分，獲得學習過程函數。

回到瞬時速度和平均速度問題，衆多推理過程多是雄心勃勃的，可是構成的學習過程卻多是毫無心義的。

正如積分最倒黴的是積成了[零]，只要積分曲線(面)具備對稱性。推理過程顯然也能夠呈現對稱性，並且是大量地對稱性。

網絡上的一個著名勵志段子：

當你的所擁有的知識撐不起你的野心時，你只能靜下心去努力學習原地打轉。

閉門造車的推理，即使花了時間，獲得的其實仍是[零]。

2.4 局部最小值：上帝也沒法逃離？

[局部最小值]算是神經網絡的經典宿敵了，自上個世紀90年代始，以Vapnik爲首的統計機器學習數學家就不斷對此炮轟猛擊。

在今天看來，[局部最小值]或許並非神經網絡的過錯，大量證據代表，人類在天然學習過程當中自己就會出現局部最小值。

至於SVM爲何能繞開了[局部最小值]，和Vapnik這位大數學家有關，他用求解最優分隔平面巧妙地變換了神經網絡的目標函數。

從網絡拓撲結構來看，SVM僅算是單隱層神經網絡的特例。

凸優化、自適應隱元(支持向量)、完備的數學體系，真的讓SVM從本質上脫離了神經網絡嗎？

在[論文2.7節]中，Bengio對此發出的疑問：

Different learning algorithms for neural networks differ in the specifics of the criterion and how they optimize it, often approximately because no analytic and exact solution is possible.

2.5 假設：局部降低

既然人類天然學習自己就存在局部最小值，那麼是如何掉進去的，又如何從中逃逸？

來看Bengio的第二個假設：

Local Descent Hypothesis：When the brain of a single biological agent learns, it relies on approximate local descent in order to gradually improve itself.

便是說，學習過程依賴於對[偏差]的不斷局部降低，這是一個徐徐漸進的過程。

[論文2.7節]最後有一個觀點很突兀：

One should not confuse local minima in synaptic weights with local minima (or the appearance of being stuck) in inference.

便是說，神經推理過程不會陷入[局部最小值]，神經元能夠隨時大幅度變化本身，根本沒有機會結識[局部最小值]。

那麼問題就確定出在學習過程了，我的總結出四個關鍵點：

(I) 首先，根據Bengio的假設，學習過程顯然是間斷的，少有學習任務可以一鼓作氣。

(II) 一旦間斷，就確定須要[斷點續傳]，每次選擇一個局部的方向繼續工做。

(III) 在學習後期，學習速率一般會變得很慢（好比厭學了)，致使學習幾乎停滯不前了。

(IV) 知識是有限的，尤爲是在解決世界難題上(如NP徹底問題)，一部分人仍然會執拗地堅持彷佛不正確的解(N=NP)。

————————————————————————————————————————————————————

(II)顯然不能保證，當前由貪心原則選擇的[最速降低路徑]必定是[通往全局最小值路徑]的子路徑。

由於函數曲面必然存在大量[局部最小值]，因此搜索必然不會剛好選擇[通往全局最小值路徑]，而是在中間就落入局部最小值。

這是爲何[局部最小值]不可避免的天然緣由。

固然，Bengio還指出的更壞的狀況，當前[最速降低路徑]，甚至不能保證會到達[局部最小值]。

依據是[隨機梯度降低]與[批梯度降低]。

咱們知道，[隨機梯度降低]沒有選擇所有樣原本學習，而是逐部分學習，最後會降低到離[批梯度降低]稍遠的偏移位置。

這是[斷點續傳]策略形成的不可避免型[精度偏差]，Bengio稱該偏移位置爲[Effective Local Minima]。

————————————————————————————————————————————————————

(III)的解釋可從二階降低的牛頓法角度觀察，學習速率由二階Hessian矩陣控制：

$\Delta x_{t}=H_{t}^{-1} \cdot g_{t}$

隨着[偏差]的不斷減少，$H_{t}^{-1}$近似也在減少，學習速率的降低彷佛是沒法挽回的。

以致於最後，學習進程幾乎處於停滯狀態，此時很大可能在某個局部最小值附近，因而就出不來了。

從社會角度來看，出自[對話機器學習大神Yoshua Bengio（下）]中的Q&A：

Q：

您以爲文化趨勢是否會影響個體而且致使它們賴在局部優化狀況？好比各類宗教機構和啓蒙哲學之間的爭端，家長式社會和婦女參政之間的衝突。這種現象是有益仍是有害的？

A：

個人見解是，很是多的個體固守本身的信念，由於這些信念已經變成了他們身份的一部分，表明了他們是怎麼樣的一個羣體。改變信念是困難並且可怕的。

————————————————————————————————————————————————————

對於(IV)，咱們都知道： 「失敗乃成功之母」。失敗是必然有的，說明你掌握的知識有限。

物理學巨匠牛頓說過：「若是說我看得比別人更遠些，那是由於我站在巨人的肩膀上。」

隨着愈來愈多的先輩在[局部最小值]中摸爬滾打，我相信，在將來，咱們的子孫確定會到達[全局最小值]。

2.6 逃逸策略

儘管在天然學習過程當中，陷入局部最小值不可避免，但人類目前至少存在兩個途徑來逃逸。

★策略一：絞盡腦汁，豁然開朗

當咱們被一個問題所困時，[絞盡腦汁]每每會從其餘方向找到突破點。

該策略是有實驗依據的，由Bengio組在2014年(本論文寫成2年後)發現：

當參數(神經元)的維度很高時，局部最小值會蛻變成鞍點：

參數高維，即每層中神經元個數不少，VC維超級大，會出現和直覺相悖的現象：幾乎不存在局部最小值。

Bengio對此的解釋： [2015蒙特利爾深度學習暑期學校之天然語言處理篇.哈工大SCIR]

假設在某個維度上，一個點是局部極小點的機率爲p。

那麼這個點在1000維的空間下是局部極小點的機率則爲 p^1000，是一個典型的小几率事件。

而該點在少數幾個維度上局部極小的機率則相對較高。

在參數優化過程當中，當到達這些點的時候訓練速度會明顯變慢，直到找到正確的方向。

Hinton教授的Dropout方法，實際上把已經神經網絡變成了一個動態平均結構，這與生物神經網絡是相似的。

儘管這時候模型總VC維已經龐大的沒法直視，可是隻要擅加稀疏和屏蔽，瞬時的結構風險是並不大的。

生物神經網絡的Dropout稀疏率達95%以上，也就說，同時有95%的神經元被屏蔽，僅有5%是在工做的。

[絞盡腦汁] 彷佛可以強行下降稀疏率，馬上提升維度，尋求鞍點來突破。(僅我的假設)

當從局部最小值逃逸後，人會放鬆下來，又把稀疏率提升，服從結構風險最小化原則。

這時候，只要保持一個愉悅的心情，學習就會有效得多。若是繼續保持重壓，那麼過擬合顯然不可避免的。

正所謂：打罵(神經元數量使用特別多）出來的清華北大，不是殘就是廢（過擬合）。

—————————————————————————————————————————————————

★策略二：知識擴充

這大概是最廣泛的方法了，大量的局部最小值因爲「知識有限，智商不足以解答」而產生。

「知識有限」不只直接體如今觀測樣本上(如Cifar10相對於ImageNet)，還間接體如今「概括的中間結果」上。

好比在數學證實時，缺少對前置定理的瞭解，你幾乎是沒法進行下一步推導的。

這也是本篇論文討論的重點，[文化浸染是如何協助從局部最小值中逃逸的？]

深度結構與層次抽象表達

3.1 莫名其妙的功臣——Hubel&Wiesel

幾乎大部分關於Deep Learning資料，開篇必引1981年諾貝爾生理學或醫學獎得到者，Hubel&Wiesel。

他們在1974年經典之做[Visual-field representation in layer IV of monkey striate cortex]，能夠說是萬惡之源。

至於深度神經網絡的最初構想是否真的與Hubel&Wiesel的工做有關，並無確切證據。但拿諾獎來貼金，這是很是划算的買賣。

3.2 抽象觀點

對RBM的可視化是簡單的，可是對DBN的可視化確實艱難的。由於第二層以上參數學習的是通過non-linearity變換後的特徵。

Bengio弟子之一Dumitru Erhan在2009年提出了對深度網絡可視化的方法，用實驗驗證了深度結構的逐層抽象能力。[Erhan10]

3.3 函數觀點

神經元在每層時，都有一個對應的表達函數，深度越大，函數積鏈越長，後一層的函數鏈，實際上是由前一層的函數鏈遞推獲得。

這像極了現代程序設計方法——按功能設計子函數、增大代碼重用率。

儘管單隱層神經網絡被證實可將任何函數擬合至精度爲$\frac{1}{n}$ [Barron 1993]，可是正如咱們不會寫出單函數代碼同樣，這並無意義。

單隱層結構自己就不是科學的，起碼它缺乏神經元[複用](re-use)機制，效果不會很好。

Bengio組的另外一個研究熱點即便探索深度的[等效性]，當前呼聲較高的是這個假設：

Theorems on advantage of depth:
Some functions compactly represented with k layers may require exponential size with 2 layers.

(Hastad et al 86&91, Bengio et al 2007,Bengio&Delalleau 2011, Braverman 2011,Pascanu et al 2014, Montufar et al 2014)

以SVM爲例，當搜索空間無限龐大時，K層神經網絡的搜索範圍與$2^{n}$個支持向量等效，這時候選擇SVM是不妥的。

反之，要是研究如何擬合$sinx$，SVM和K層神經網絡幾乎是難分伯仲。

這顯然又回到了NFL(No Free Lunch)上，既不可盲目支持深度神經網絡，更不可盲目排斥深度神經網絡。

—————————————————————————————————————————————————

[複用]機制讓神經網絡結構變得很靈活，反作用也很明顯，它服從於乘法原理。

從圖論觀點來看，假設每一個結點連出兩條路徑，那麼到達深度$n$的結點就有$2^{n}$條路徑，複雜度呈指數級增加。

大量的可選擇路徑，讓模型在搜索過程當中，不停陷入形形色色的局部最小值當中，這彷佛是沒法避免的。

3.4 層次抽象與層次理解

回憶一下，當你初逢《高等數學》，你是如何理解積分這樣高級概念的：

關於這個「世界」的表達，不一樣的人會產生不一樣的抽象，讓自身去更好地理解。

雖然抽象內容各不相同，但這種行爲是共性的——層次結構、分佈聯繫、深度計算。

鑑於此，Bengio提出第三個假設：

Deep Abstractions Hypothesis：Higherlevel abstractions in brains are represented
by deeper computations (going through more areas or more computational steps in
sequence over the same areas).

在計算模型中捕風捉影

4.1 非監督學習、監督學習

數據挖掘最多見的思路：先聚類，定模式。後分析，精結果。這種主動意識的行爲，真的沒有潛意識在誘導嘛？

考慮一個小學低年級的奧數題：

找規律，並填空。

0、一、一、二、三、五、八、1三、2一、3四、__、__、__。

儘管咱們對斐波那契數列耳熟能詳，但世界上彷佛尚未任何一種聚類算法可以發現這種規律。

那些年，愚昧無知的咱們又是如何解決這個問題的呢？

答案無非就是：

在數次失敗、偶然剛好嘗試[斐波那契公式]時，假設這是這種[概念]是對的，用給定數據計算多個實例$\widetilde{x}$，用$\widetilde{x}$去驗證$x$，只要$\sum (\widetilde{x}-x)^2= 0$，即咱們的[概念]發現的模式沒有任何錯誤，則認爲，解答正確，而且記憶這種解法。

很不湊巧，這恰是RBM/AutoEncoder的思路，而咱們的潛意識彷佛正好在使用它。

對斐波那契數列規律的五花八門探索，不只基本不是最優的，更多仍是錯的(與學習任務南轅北轍)。

若是碰巧有個模式是對的，那麼對後續的學習就輕鬆許多，或是不用學習、或是做爲一種暗示和引導。

據此兩點，Bengio提出第1、第二觀測現象：

Observation O1: training deep architectures is easier if hints are provided about the function that intermediate levels should compute.

Observation O2: from the work on artificial neural networks: it is much easier to teach a network with supervised learning (where we provide it examples of when a concept is present and when it is not present in a variety of examples) than to expect unsupervised learning to discover the concept (which may also happen but usually leads to poorer renditions of the concept).

4.2 搜索之殤

神經網絡並無什麼奇妙的內涵，它本質仍然是一個[啓發式窮舉搜索模型]。

相似於A*，它的啓發式方向是[貪心策略：最速降低]。

但這個窮舉，是一個連續實數型的無盡窮舉，是一個曲面複雜的連續函數的生成。

類比於[深度優先搜索]，咱們都知道，隨着深度的增長，會出現愈來愈惡劣的狀況。

而神經網絡一樣有這樣的厄運，這在上個世紀90年代，是被各界廣爲批判的，相關實驗在[Erhan09]中。

據此，Bengio提出第三觀測現象：

Observation O3: directly training all the layers together would not only make it difficult to exploit all the extra modeling power of a deeper architecture but would actually get worse results as the number of layers is increased.

O3仍然有一些其它的佐證，最形象的要屬[Erhan09]中對同結構，隨機初始化的各個神經網絡，追蹤多個訓練階段，

剝離輸出層，將最後的隱層輸出降維，且2D可視化，獲得軌跡線圖：

這個軌跡線隱含着兩點有趣的現象：

(I) 不一樣初始化的神經網絡，選擇了獨立的搜索方向，陷入了獨自的局部最小值中，彼此不會重合。

(II) 沒有預訓練的神經網絡，雜亂無章地在亂跑。

據此，Bengio提出第4、第五觀測現象:

Observation O4: No two trajectories end up in the same local minimum. This suggests that the number of functional local minima (i.e. corresponding to different functions, each of which possibly corresponding to many instantiations in parameter space) must be huge.

Observation O5: A training trick (unsupervised pre-training) which changes the initial
conditions of the descent procedure allows one to reach much better local minima, and these better local minima do not appear to be reachable by chance alone (note how the regions in function space associated with the two 「flowers」 have no overlap at all, in fact being at nearly 90 degrees from each other in the highdimensional function space).

4.3 假設：從模型走向人類

Bengio根據以上的Observation做了三個偉大的假設，他認爲：

人類和如今的神經網絡模型同樣愚蠢，飽受[局部最小值]與[難以駕馭深度結構]的折磨。

前提條件：[One Single Human Learner]，固然這個條件是不存在的，除非世界上除你之外的人都死光了

根據 Local Descent Hypothesis、O四、O5，Bengio提出局部最小值假設：

Local Minima Hypothesis：Learning of a single human learner is limited by effective local minima.

結合O3，有對於訓練深度結構的艱難假設:

Deeper Harder Hypothesis：The detrimental effect of local minima tends to
be more pronounced when training deeper architectures (by an optimization method
based on iteratively descending the training criterion).

最後，是一個關於徒有深度結構、卻幾乎不能利用之來逐層抽象的假設：

Abstractions Harder Hypothesis：A single human learner is unlikely to discover high-level abstractions by chance because these are represented by a deep
sub-network in the brain.

這些看起來有些天方夜譚，人類怎麼可能像機器學習模型那樣愚蠢？

但若是從史前時代開始，世界上就你一我的，你保持不死狀態直到今天，沒準今天真和模型同樣愚蠢。

而之因此沒有出現這種狀況，是由於[社會文化浸染]與[有性繁殖]，讓咱們的進化地如此強大。

社會：神經網絡們的互聯網E時代

5.1 雙腦聊天

考慮這樣一個場景：

那年，牛頓還沒見過蘋果長什麼樣子，也不知道什麼爲紅色。

他偶然來到果園，指着樹上的紅蘋果，問山德士上校：「我據說果園裏有蘋果，這是蘋果嘛？」

上校回答道：「你看，這種顏色叫紅色，而紅色的球狀的物體是就是蘋果。」

牛頓繼續問：「味道怎麼樣？」

上校冷笑道：「你來KFC品嚐一下咱們的蘋果雞腿堡不就好了。」

將這個場景用神經網絡模型表示：

牛頓在未通過任何學習的狀況下，直接從上校口中獲取關於蘋果的[顏色][形狀]，這是一件很是難以想象的事。

由於從目前的模型來看，要讓神經網絡監督訓練[顏色][形狀]，仍然須要大費周章。

然而，此時牛頓還不知道蘋果的[味道]，因此當他看見一個[紅色的皮球]，會認爲這是蘋果，上前咬一口，鹹鹹的，

因此牛頓可能得出了這樣一個真理，[蘋果是紅色的、圓的、鹹鹹的]，而[紅色的、圓的、甜甜的]的物體確定不是蘋果。

——————————————————————————————————————————————————

看完上面的笑話，咱們通常會以爲，牛頓其實也很蠢。

若是沒人告訴他[蘋果是甜甜的]，那麼他可能一生會把[紅色的皮球]錯認爲是[紅色的蘋果]，掉進一個局部最小值中。

其實事情不比那麼糟，牛頓起碼有一個方法，讓[紅色的、圓的、甜甜的]的物體也被他認爲是蘋果:

只要他不知道[蘋果是能夠吃的]，即，牛頓的神經網絡中，扔掉關於[味道]的隱層，讓網絡深度變淺。

這不由讓咱們想起了 O3 , 錯誤地直接訓練多層網絡，會讓結果變糟，此時淺層結構勝於深度結構。

但，若是牛頓使用了正確的方法，好比真的去KFC吃了蘋果雞腿堡，那麼就會認爲[紅色的、圓的、鹹鹹的]確定不是蘋果，

這比直接捨棄[蘋果是能夠吃的]有效地多，此時深度結構遠勝於淺層結構，符合O1。

5.2 信息交流，讓世界更美好

牛頓認知蘋果，歸功於山德士上校苦口婆心的教導，以口頭語言形式。

從信息論觀點來看，咱們認爲漢語的信息量比英語大，大部分語言的信息量要比行爲動做要大。

即上校用四書五經而不是美式英語向牛頓解釋，牛頓收穫可能更大。

上校用美式英語而不是肢體動做向牛頓解釋，牛頓收穫可能更大。

但不管如何，只要[交流](Communication)可以傳遞到另外一方的神經網絡當中，成功消除神經元混沌，就足夠了。

固然，咱們仍是但願可以實現信息量更豐富(Richer)的[交流]，也許偶然之中，就能突破本身的其它[局部最小值]。

[交流]不只僅侷限於人類，動物之間那些[危險警示]，也可視爲[交流]，這樣，愚蠢的動物纔能有效學習如何保護本身。

據此，Bengio提出引導學習假設：

Guided Learning Hypothesis. A human brain can learn high-level abstractions if
guided by the signals produced by other humans, which act as hints or indirect supervision for these high-level abstractions.

5.3 交流背後的那些事

在牛頓的識別蘋果神經網絡中，關於[顏色][形狀]的隱層，被山德士上校給替換了。

這不過只是瞬時行爲，然而僅僅就結束了嘛？顯然不是。

牛頓回去以後，將今天的收穫見聞回想了一遍，對蘋果有了更深的認識。

在神經網絡中，咱們假設：

[回想]過程發出了一個訓練信號(Train Signal)，牛頓的神經元馬上開始飛舞起來，

通過多輪的推理(Inference)，將[顏色][形狀][味道]三個隱層的值給[Fine-Tune]下，下降了識別錯誤率。

顯然，由於牛頓愛思考的性格，[交流]觸發了牛頓的學習機制。

這卻是能解釋，爲何一樣的老師上了一樣的課，學生有的考上了清華，有的成了家裏蹲。

5.4 交流引起強大的心智活動

[交流]在神經系統中產生最頻繁的效應就是[虛擬環境]，通俗點就是「不在場卻能身臨其境」。

經[交流]直接修改的神經網絡，上下協調性不佳，須要[Fine-Tuning]，可能還須要一些新樣原本強化記憶理解。

Hinton教授認爲生物神經元廣泛包含兩種方向的計算。

這是一個證實RBM和AutoEncoder合理性的突破點，由於大多數狀況下，須要在「判別模型」和「生成模型」間快速切換。

[虛擬環境]的產生能夠用「生成模型」來解釋，只要將前向傳播的方向逆置，從[顏色]到[形狀]、[味道]，生成「蘋果」，

就能在沒有看見蘋果的狀況下，腦中浮現出蘋果。

——————————————————————————————————————————————————————

[交流]將關於世界的[概念](Concept)傳播，傳播通道的帶寬是有限的，這意味着將產生[競爭]。

好比，咱們在接受[地球是圓的]同時，會排斥[地球是方的]、[地球是三角形的]。

[競爭]是天然界的標準法則，所謂優勝劣汰，適者生存.

最後留下的[概念]在族羣(Population)神經網絡的[局域網]中，成爲霸主，此時[概念]進化爲[信仰]。

[信仰]同[深度結構]相似，是一把雙刃劍。

正確的[信仰]，如哥白尼的[日心說]，有助於咱們走出關於天體運動的[局部最小值]。

錯誤的[信仰]，如亞里士多德的[力是維持物體運動的緣由]，則會長期把咱們囚禁在[局部最小值]中。

5.5 外傳：合理的課程學習

該部分是Bengio我的的一個小研究，基於 Guided Learning Hypothesis. , 即學習過程是能夠被引導的。

課程順序學習制度是人類在學習任務上的經驗總結，一個實例以下：

CTSC(國際信息學奧林匹克競賽中國隊選拔賽)1997 [選課]，背景描述：

在選修課程中，有些課程能夠直接選修，有些課程須要必定的基礎知識，必須在選了其它的一些課程的基礎上才能選修。例如《Frontpage》必須在選修了《Windows操做基礎》以後才能選修。咱們稱《Windows操做基礎》是《Frontpage》的先修課。

從感受上來看，先修課制度劃定了學習進程的任務次序，具備[由淺入深性]、[無後效性]，保證學習進程按部就班。

同時，讓學習任務也具備深度結構，這是一個合理的層次抽象策略( 從簡單抽象(子抽象)到複雜抽象(組合抽象) ) 。

據此，Bengio假設，若是在機器學習任務中，可以將樣本的學習難度劃分，從新安排學習順序，那麼就會有更好的效果。

由於學習是局部漸進的，因此低難度的學習樣本，目標函數曲面較爲簡單，可以較爲接近[全局最小值]。

再次，使用中、高難度的樣本，函數曲面逐漸複雜，最後仍然會落入[局部最小值]中，不過位置更接近[局部最小值]。

進化論與迷因論

6 .1 理查德·道金斯的迷因論

理查德·道金斯(Richard Dawkins)大概是世界上最野心勃勃、最鮮爲人知的生物進化學家了。

在他的研究中，最使人難忘的工做就是提出「迷因論」，[果殼網]有一篇很好的翻譯介紹。

6.2 搜索觀點

幾乎世界萬物的生命進程均可以看做是一個搜索進程。

基因的進化是在搜索—— 不斷捨棄劣等基因，探索高等基因。(歷程：幾十萬年）

迷因的進化是在搜索—— 在數量爆炸性的文化中，尋找傳承不息的迷因子。(歷程：幾十年、幾百年、幾千年)

學習的進化是在搜索—— 個體爲將所掌握的知識統一，琢磨一個支點去平衡它們。(歷程：幾分鐘、幾小時、幾天)

推理的進化是在搜索—— 神經元爲了協調神經關係，不斷變化本身。（歷程：幾毫秒，幾秒）

這些搜索策略，由於大天然的饋贈，得到了足以並行搜索的條件。

基因的並行在於[有性繁殖]，一個家族生生不息的繁衍，一塊兒推進着這個家族基因的並行搜索進程。

迷因的並行在於[宿主傳播]，顯然，知乎的一條回答，可以在短期內進入數以千計人的腦中，加深「膜蛤」印象。

學習的並行在於[個體交流]，一個經典案例就是 「牛頓是如何認知蘋果是紅色的、圓圓的、甜甜的？」

推理的並行在於[神經網絡]，神經元彼此鏈接着，構成神經網絡，而神經衝動無時無刻不在產生，瞬息萬變。

天然界的四大並行搜索是可怕的，它們之間層層疊加，協助人類以最快的速度從[局部最小值]中逃逸，無限逼近[全局最小值]。

6.3 先有雞，仍是先有蛋

儘管迷因子看起來無所不能，但仔細分析，道金斯僅給出迷因的兩種特性：[自由腦入侵]與[噪聲複製] (noisy copy)

這兩種特性只能描述迷因子發展的中間狀態，一個很嚴肅的問題必須被考慮：最先的迷因子無從複製，又如何而來？

該問題必定程度上等效於哲學上的「雞生蛋，仍是蛋生雞？」

顯然，要解決這個疑問，就必須從迷因論中跳出來，在其餘領域尋找論據。

最早、也是最容易產生的一種假設，就是迷因起源於它的棲息地——腦，由神經網絡而生。

若是這種假設是正確的，那麼迷因就得到第三種特性 [迷因重組]。

[迷因重組]的想法顯然效仿於[基因重組]，[基因重組]是[有性繁殖]生物體內在的一種可怕技術。

人類的基因數量只有5萬，且[基因突變]的頻率過低，可是一旦這些基因排列組合，產生的基因型數量是龐大到沒法計算的。

[迷因重組]更加可怕，人的一輩子接觸的迷因子顯然不止5萬，因此[迷因重組]能夠產生大量的嶄新迷因子。

這彷佛能解釋迷因子的起源問題。

6.4 迷因計算模型

[噪聲複製]儘管看起來是像是一條毒瘤鏈，實際上它的速度是可憐的。

Bengio用了這樣一個例子：

一種迷因，在某輪傳播中鏈接N我的，產生N個複製體。若是如今有M我的，且M>N，那麼按照並行計算的概念，產生的M個複製體，會讓下輪的迷因傳播速度提高M/N倍。

這看起來頗有道理，畫成圖應該是這樣：

從圖上來看，顯然是不符合上文關於人類「交流」的假設的，因此應該是這樣：

對於其中的某我的，他可能在短期內，[連續]與[同輪]的人交換信息，這部分能夠用一個子圖描述：

如今，讓咱們考慮一個更瘋狂的想法，假如某人在每次交流時，對迷因的見解都不一樣，

那麼在這顆分治樹上，葉子結點(最終的想法)與非葉結點(曾經的想法)對迷因都是有貢獻的。

考慮對於深度爲$n$的二叉樹，總結點數的計算公式: $N=2^{n}-1$，這樣，迷因子的傳播速度，就能夠呈指數級增加。

這只是理論上的最好傳播效果，Bengio指出，實際交流跨度不會很大，因此這棵分治樹的規模是有限的。

據此，Bengio提出迷因分治傳播假設：

Memes Divide-and-Conquer Hypothesis. Language, individual learning, and the recombination of memes constitute an efficient evolutionary recombination operator, and this gives rise to rapid search in the space of memes, that helps humans build up better high-level internal representations of their world.