大話卷積神經網絡（CNN）

時間 2019-11-06

標籤大話神經網絡 cnn 简体版

原文原文鏈接

目錄帖：算法

這幾年深度學習快速發展，在圖像識別、語音識別、物體識別等各類場景上取得了巨大的成功，例如AlphaGo擊敗世界圍棋冠軍，iPhone X內置了人臉識別解鎖功能等等，不少AI產品在世界上引發了很大的轟動。在這場深度學習革命中，卷積神經網絡（Convolutional Neural Networks，簡稱CNN）是推進這一切爆發的主力，在目前人工智能的發展中有着很是重要的地位。數組

【問題來了】那什麼是卷積神經網絡（CNN）呢？網絡

一、小白一下，什麼是神經網絡？
這裏的神經網絡，也指人工神經網絡（Artificial Neural Networks，簡稱ANNs），是一種模仿生物神經網絡行爲特徵的算法數學模型，由神經元、節點與節點之間的鏈接（突觸）所構成，以下圖：

每一個神經網絡單元抽象出來的數學模型以下，也叫感知器，它接收多個輸入（x1，x2，x3...），產生一個輸出，這就比如是神經末梢感覺各類外部環境的變化（外部刺激），而後產生電信號，以便於轉導到神經細胞（又叫神經元）。

單個的感知器就構成了一個簡單的模型，但在現實世界中，實際的決策模型則要複雜得多，每每是由多個感知器組成的多層網絡，以下圖所示，這也是經典的神經網絡模型，由輸入層、隱含層、輸出層構成。

人工神經網絡能夠映射任意複雜的非線性關係，具備很強的魯棒性、記憶能力、自學習等能力，在分類、預測、模式識別等方面有着普遍的應用。分佈式

二、重點來了，什麼是卷積神經網絡？
卷積神經網絡在圖像識別中大放異彩，達到了史無前例的準確度，有着普遍的應用。接下來將以圖像識別爲例子，來介紹卷積神經網絡的原理。
（1）案例
假設給定一張圖（多是字母X或者字母O），經過CNN便可識別出是X仍是O，以下圖所示，那怎麼作到的呢

（2）圖像輸入
若是採用經典的神經網絡模型，則須要讀取整幅圖像做爲神經網絡模型的輸入（即全鏈接的方式），當圖像的尺寸越大時，其鏈接的參數將變得不少，從而致使計算量很是大。
而咱們人類對外界的認知通常是從局部到全局，先對局部有感知的認識，再逐步對全體有認知，這是人類的認識模式。在圖像中的空間聯繫也是相似，局部範圍內的像素之間聯繫較爲緊密，而距離較遠的像素則相關性較弱。於是，每一個神經元其實沒有必要對全局圖像進行感知，只須要對局部進行感知，而後在更高層將局部的信息綜合起來就獲得了全局的信息。這種模式就是卷積神經網絡中下降參數數目的重要神器：局部感覺野。

（3）提取特徵
若是字母X、字母O是固定不變的，那麼最簡單的方式就是圖像之間的像素一一比對就行，但在現實生活中，字體都有着各個形態上的變化（例如手寫文字識別），例如平移、縮放、旋轉、微變形等等，以下圖所示：

咱們的目標是對於各類形態變化的X和O，都能經過CNN準確地識別出來，這就涉及到應該如何有效地提取特徵，做爲識別的關鍵因子。
回想前面講到的「局部感覺野」模式，對於CNN來講，它是一小塊一小塊地來進行比對，在兩幅圖像中大體相同的位置找到一些粗糙的特徵（小塊圖像）進行匹配，相比起傳統的整幅圖逐一比對的方式，CNN的這種小塊匹配方式可以更好的比較兩幅圖像之間的類似性。以下圖：

以字母X爲例，能夠提取出三個重要特徵（兩個交叉線、一個對角線），以下圖所示：

假如以像素值"1"表明白色，像素值"-1"表明黑色，則字母X的三個重要特徵以下：

那麼這些特徵又是怎麼進行匹配計算呢？（不要跟我說是像素進行一一匹配的，汗！）
（4）卷積(Convolution)
這時就要請出今天的重要嘉賓：卷積。那什麼是卷積呢，不急，下面慢慢道來。
當給定一張新圖時，CNN並不能準確地知道這些特徵到底要匹配原圖的哪些部分，因此它會在原圖中把每個可能的位置都進行嘗試，至關於把這個feature（特徵）變成了一個過濾器。這個用來匹配的過程就被稱爲卷積操做，這也是卷積神經網絡名字的由來。
卷積的操做以下圖所示：

是否是很像把毛巾沿着對角捲起來，下圖形象地說明了爲何叫「卷」積

在本案例中，要計算一個feature（特徵）和其在原圖上對應的某一小塊的結果，只需將兩個小塊內對應位置的像素值進行乘法運算，而後將整個小塊內乘法運算的結果累加起來，最後再除以小塊內像素點總個數便可（注：也可不除以總個數的）。
若是兩個像素點都是白色（值均爲1），那麼1*1 = 1，若是均爲黑色，那麼(-1)*(-1) = 1，也就是說，每一對可以匹配上的像素，其相乘結果爲1。相似地，任何不匹配的像素相乘結果爲-1。具體過程以下（第一個、第二個……、最後一個像素的匹配結果）：

根據卷積的計算方式，第一塊特徵匹配後的卷積計算以下，結果爲1

對於其它位置的匹配，也是相似（例如中間部分的匹配）

計算以後的卷積以下

以此類推，對三個特徵圖像不斷地重複着上述過程，經過每個feature（特徵）的卷積操做，會獲得一個新的二維數組，稱之爲feature map。其中的值，越接近1表示對應位置和feature的匹配越完整，越是接近-1，表示對應位置和feature的反面匹配越完整，而值接近0的表示對應位置沒有任何匹配或者說沒有什麼關聯。以下圖所示：

能夠看出，當圖像尺寸增大時，其內部的加法、乘法和除法操做的次數會增長得很快，每個filter的大小和filter的數目呈線性增加。因爲有這麼多因素的影響，很容易使得計算量變得至關龐大。
（5）池化(Pooling)
爲了有效地減小計算量，CNN使用的另外一個有效的工具被稱爲「池化(Pooling)」。池化就是將輸入圖像進行縮小，減小像素信息，只保留重要信息。
池化的操做也很簡單，一般狀況下，池化區域是2*2大小，而後按必定規則轉換成相應的值，例如取這個池化區域內的最大值（max-pooling）、平均值（mean-pooling）等，以這個值做爲結果的像素值。
下圖顯示了左上角2*2池化區域的max-pooling結果，取該區域的最大值max(0.77,-0.11,-0.11,1.00)，做爲池化後的結果，以下圖：

池化區域往左，第二小塊取大值max(0.11,0.33,-0.11,0.33)，做爲池化後的結果，以下圖：

其它區域也是相似，取區域內的最大值做爲池化後的結果，最後通過池化後，結果以下：

對全部的feature map執行一樣的操做，結果以下：

最大池化（max-pooling）保留了每一小塊內的最大值，也就是至關於保留了這一塊最佳的匹配結果（由於值越接近1表示匹配越好）。也就是說，它不會具體關注窗口內究竟是哪個地方匹配了，而只關注是否是有某個地方匹配上了。
經過加入池化層，圖像縮小了，能很大程度上減小計算量，下降機器負載。
（6）激活函數ReLU (Rectified Linear Units)
經常使用的激活函數有sigmoid、tanh、relu等等，前二者sigmoid/tanh比較常見於全鏈接層，後者ReLU常見於卷積層。
回顧一下前面講的感知機，感知機在接收到各個輸入，而後進行求和，再通過激活函數後輸出。激活函數的做用是用來加入非線性因素，把卷積層輸出結果作非線性映射。

在卷積神經網絡中，激活函數通常使用ReLU(The Rectified Linear Unit，修正線性單元)，它的特色是收斂快，求梯度簡單。計算公式也很簡單，max(0,T)，即對於輸入的負值，輸出全爲0，對於正值，則原樣輸出。
下面看一下本案例的ReLU激活函數操做過程：
第一個值，取max(0,0.77)，結果爲0.77，以下圖

第二個值，取max(0,-0.11)，結果爲0，以下圖

以此類推，通過ReLU激活函數後，結果以下：

對全部的feature map執行ReLU激活函數操做，結果以下：

（7）深度神經網絡
經過將上面所提到的卷積、激活函數、池化組合在一塊兒，就變成下圖：

經過加大網絡的深度，增長更多的層，就獲得了深度神經網絡，以下圖：

（8）全鏈接層(Fully connected layers)
全鏈接層在整個卷積神經網絡中起到「分類器」的做用，即經過卷積、激活函數、池化等深度網絡後，再通過全鏈接層對結果進行識別分類。
首先將通過卷積、激活函數、池化的深度網絡後的結果串起來，以下圖所示：

因爲神經網絡是屬於監督學習，在模型訓練時，根據訓練樣本對模型進行訓練，從而獲得全鏈接層的權重（如預測字母X的全部鏈接的權重）

在利用該模型進行結果識別時，根據剛纔提到的模型訓練得出來的權重，以及通過前面的卷積、激活函數、池化等深度網絡計算出來的結果，進行加權求和，獲得各個結果的預測值，而後取值最大的做爲識別的結果（以下圖，最後計算出來字母X的識別值爲0.92，字母O的識別值爲0.51，則結果斷定爲X）

上述這個過程定義的操做爲」全鏈接層「(Fully connected layers)，全鏈接層也能夠有多個，以下圖：

（9）卷積神經網絡（Convolutional Neural Networks）
將以上全部結果串起來後，就造成了一個「卷積神經網絡」（CNN）結構，以下圖所示：函數

最後，再回顧總結一下，卷積神經網絡主要由兩部分組成，一部分是特徵提取（卷積、激活函數、池化），另外一部分是分類識別（全鏈接層），下圖即是著名的手寫文字識別卷積神經網絡結構圖：
工具

推薦相關閱讀oop

歡迎關注本人公衆號「大數據與人工智能Lab」（BigdataAILab），瞭解詳細內容。學習

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。