大話卷積神經網絡(CNN)

目錄帖:算法

這幾年深度學習快速發展,在圖像識別、語音識別、物體識別等各類場景上取得了巨大的成功,例如AlphaGo擊敗世界圍棋冠軍,iPhone X內置了人臉識別解鎖功能等等,不少AI產品在世界上引發了很大的轟動。在這場深度學習革命中,卷積神經網絡(Convolutional Neural Networks,簡稱CNN)是推進這一切爆發的主力,在目前人工智能的發展中有着很是重要的地位。數組

【問題來了】那什麼是卷積神經網絡(CNN)呢?網絡

一、小白一下,什麼是神經網絡?
這裏的神經網絡,也指人工神經網絡(Artificial Neural Networks,簡稱ANNs),是一種模仿生物神經網絡行爲特徵的算法數學模型,由神經元、節點與節點之間的鏈接(突觸)所構成,以下圖:
 
每一個神經網絡單元抽象出來的數學模型以下,也叫感知器,它接收多個輸入(x1,x2,x3...),產生一個輸出,這就比如是神經末梢感覺各類外部環境的變化(外部刺激),而後產生電信號,以便於轉導到神經細胞(又叫神經元)。
 
單個的感知器就構成了一個簡單的模型,但在現實世界中,實際的決策模型則要複雜得多,每每是由多個感知器組成的多層網絡,以下圖所示,這也是經典的神經網絡模型,由輸入層、隱含層、輸出層構成。
 
人工神經網絡能夠映射任意複雜的非線性關係,具備很強的魯棒性、記憶能力、自學習等能力,在分類、預測、模式識別等方面有着普遍的應用。分佈式

二、重點來了,什麼是卷積神經網絡?
卷積神經網絡在圖像識別中大放異彩,達到了史無前例的準確度,有着普遍的應用。接下來將以圖像識別爲例子,來介紹卷積神經網絡的原理。
(1)案例
假設給定一張圖(多是字母X或者字母O),經過CNN便可識別出是X仍是O,以下圖所示,那怎麼作到的呢
 
(2)圖像輸入
若是採用經典的神經網絡模型,則須要讀取整幅圖像做爲神經網絡模型的輸入(即全鏈接的方式),當圖像的尺寸越大時,其鏈接的參數將變得不少,從而致使計算量很是大。
而咱們人類對外界的認知通常是從局部到全局,先對局部有感知的認識,再逐步對全體有認知,這是人類的認識模式。在圖像中的空間聯繫也是相似,局部範圍內的像素之間聯繫較爲緊密,而距離較遠的像素則相關性較弱。於是,每一個神經元其實沒有必要對全局圖像進行感知,只須要對局部進行感知,而後在更高層將局部的信息綜合起來就獲得了全局的信息。這種模式就是卷積神經網絡中下降參數數目的重要神器:局部感覺野。
 
(3)提取特徵
若是字母X、字母O是固定不變的,那麼最簡單的方式就是圖像之間的像素一一比對就行,但在現實生活中,字體都有着各個形態上的變化(例如手寫文字識別),例如平移、縮放、旋轉、微變形等等,以下圖所示:
 
咱們的目標是對於各類形態變化的X和O,都能經過CNN準確地識別出來,這就涉及到應該如何有效地提取特徵,做爲識別的關鍵因子。
回想前面講到的「局部感覺野」模式,對於CNN來講,它是一小塊一小塊地來進行比對,在兩幅圖像中大體相同的位置找到一些粗糙的特徵(小塊圖像)進行匹配,相比起傳統的整幅圖逐一比對的方式,CNN的這種小塊匹配方式可以更好的比較兩幅圖像之間的類似性。以下圖:
 
以字母X爲例,能夠提取出三個重要特徵(兩個交叉線、一個對角線),以下圖所示:
 
假如以像素值"1"表明白色,像素值"-1"表明黑色,則字母X的三個重要特徵以下:
 
那麼這些特徵又是怎麼進行匹配計算呢?(不要跟我說是像素進行一一匹配的,汗!)
(4)卷積(Convolution)
這時就要請出今天的重要嘉賓:卷積。那什麼是卷積呢,不急,下面慢慢道來。
當給定一張新圖時,CNN並不能準確地知道這些特徵到底要匹配原圖的哪些部分,因此它會在原圖中把每個可能的位置都進行嘗試,至關於把這個feature(特徵)變成了一個過濾器。這個用來匹配的過程就被稱爲卷積操做,這也是卷積神經網絡名字的由來。
卷積的操做以下圖所示:
 
是否是很像把毛巾沿着對角捲起來,下圖形象地說明了爲何叫「卷」積
 
在本案例中,要計算一個feature(特徵)和其在原圖上對應的某一小塊的結果,只需將兩個小塊內對應位置的像素值進行乘法運算,而後將整個小塊內乘法運算的結果累加起來,最後再除以小塊內像素點總個數便可(注:也可不除以總個數的)。
若是兩個像素點都是白色(值均爲1),那麼1*1 = 1,若是均爲黑色,那麼(-1)*(-1) = 1,也就是說,每一對可以匹配上的像素,其相乘結果爲1。相似地,任何不匹配的像素相乘結果爲-1。具體過程以下(第一個、第二個……、最後一個像素的匹配結果):
 
 
 
根據卷積的計算方式,第一塊特徵匹配後的卷積計算以下,結果爲1
 
對於其它位置的匹配,也是相似(例如中間部分的匹配)
 
計算以後的卷積以下
 
以此類推,對三個特徵圖像不斷地重複着上述過程,經過每個feature(特徵)的卷積操做,會獲得一個新的二維數組,稱之爲feature map。其中的值,越接近1表示對應位置和feature的匹配越完整,越是接近-1,表示對應位置和feature的反面匹配越完整,而值接近0的表示對應位置沒有任何匹配或者說沒有什麼關聯。以下圖所示:
 
能夠看出,當圖像尺寸增大時,其內部的加法、乘法和除法操做的次數會增長得很快,每個filter的大小和filter的數目呈線性增加。因爲有這麼多因素的影響,很容易使得計算量變得至關龐大。
(5)池化(Pooling)
爲了有效地減小計算量,CNN使用的另外一個有效的工具被稱爲「池化(Pooling)」。池化就是將輸入圖像進行縮小,減小像素信息,只保留重要信息。
池化的操做也很簡單,一般狀況下,池化區域是2*2大小,而後按必定規則轉換成相應的值,例如取這個池化區域內的最大值(max-pooling)、平均值(mean-pooling)等,以這個值做爲結果的像素值。
下圖顯示了左上角2*2池化區域的max-pooling結果,取該區域的最大值max(0.77,-0.11,-0.11,1.00),做爲池化後的結果,以下圖:
 
池化區域往左,第二小塊取大值max(0.11,0.33,-0.11,0.33),做爲池化後的結果,以下圖:
 
其它區域也是相似,取區域內的最大值做爲池化後的結果,最後通過池化後,結果以下:
 
對全部的feature map執行一樣的操做,結果以下:
 
最大池化(max-pooling)保留了每一小塊內的最大值,也就是至關於保留了這一塊最佳的匹配結果(由於值越接近1表示匹配越好)。也就是說,它不會具體關注窗口內究竟是哪個地方匹配了,而只關注是否是有某個地方匹配上了。
經過加入池化層,圖像縮小了,能很大程度上減小計算量,下降機器負載。
(6)激活函數ReLU (Rectified Linear Units)
經常使用的激活函數有sigmoid、tanh、relu等等,前二者sigmoid/tanh比較常見於全鏈接層,後者ReLU常見於卷積層。
回顧一下前面講的感知機,感知機在接收到各個輸入,而後進行求和,再通過激活函數後輸出。激活函數的做用是用來加入非線性因素,把卷積層輸出結果作非線性映射。
 
在卷積神經網絡中,激活函數通常使用ReLU(The Rectified Linear Unit,修正線性單元),它的特色是收斂快,求梯度簡單。計算公式也很簡單,max(0,T),即對於輸入的負值,輸出全爲0,對於正值,則原樣輸出。
下面看一下本案例的ReLU激活函數操做過程:
第一個值,取max(0,0.77),結果爲0.77,以下圖
 
第二個值,取max(0,-0.11),結果爲0,以下圖
 
以此類推,通過ReLU激活函數後,結果以下:
 
對全部的feature map執行ReLU激活函數操做,結果以下:
 
(7)深度神經網絡
經過將上面所提到的卷積、激活函數、池化組合在一塊兒,就變成下圖:
 
經過加大網絡的深度,增長更多的層,就獲得了深度神經網絡,以下圖:
 
(8)全鏈接層(Fully connected layers)
全鏈接層在整個卷積神經網絡中起到「分類器」的做用,即經過卷積、激活函數、池化等深度網絡後,再通過全鏈接層對結果進行識別分類。
首先將通過卷積、激活函數、池化的深度網絡後的結果串起來,以下圖所示:
 
因爲神經網絡是屬於監督學習,在模型訓練時,根據訓練樣本對模型進行訓練,從而獲得全鏈接層的權重(如預測字母X的全部鏈接的權重)
 
在利用該模型進行結果識別時,根據剛纔提到的模型訓練得出來的權重,以及通過前面的卷積、激活函數、池化等深度網絡計算出來的結果,進行加權求和,獲得各個結果的預測值,而後取值最大的做爲識別的結果(以下圖,最後計算出來字母X的識別值爲0.92,字母O的識別值爲0.51,則結果斷定爲X)
 
上述這個過程定義的操做爲」全鏈接層「(Fully connected layers),全鏈接層也能夠有多個,以下圖:
 
(9)卷積神經網絡(Convolutional Neural Networks)
將以上全部結果串起來後,就造成了一個「卷積神經網絡」(CNN)結構,以下圖所示:函數

最後,再回顧總結一下,卷積神經網絡主要由兩部分組成,一部分是特徵提取(卷積、激活函數、池化),另外一部分是分類識別(全鏈接層),下圖即是著名的手寫文字識別卷積神經網絡結構圖:
 工具

推薦相關閱讀oop

 

歡迎關注本人公衆號「大數據與人工智能Lab」(BigdataAILab),瞭解詳細內容學習

相關文章
相關標籤/搜索