摘要: 當前深度學習十分火熱,深度學習網絡模型對於下降錯誤率的重要做用不言而喻。深度學習應用場景主要分爲三類:物體識別與分類,物體檢測,天然語言處理。在物體識別與分類領域,隨着AlexNet在2012年一炮走紅,深度學習從新燃起了一片熱情。從Lenet5第一次使用卷積開始,經歷了AlexNet VGG Inception ResNet等各類模型,錯誤率也一再下降。ResNet-152網絡
當前深度學習十分火熱,深度學習網絡模型對於下降錯誤率的重要做用不言而喻。深度學習應用場景主要分爲三類:物體識別與分類,物體檢測,天然語言處理。在物體識別與分類領域,隨着AlexNet在2012年一炮走紅,深度學習從新燃起了一片熱情。從Lenet5第一次使用卷積開始,經歷了AlexNet VGG Inception ResNet等各類模型,錯誤率也一再下降。ResNet-152 top-5錯誤率僅爲3%左右,遠低於人眼的5.1%。本文主要講解各類網絡模型的結構,他們的特色,以及這些特色爲什麼能減小訓練時間和下降錯誤率。框架
LeNet-5的出現標誌着CNN卷積神經網絡在AI領域的出現,CNN以視覺感覺野和權值共享的思想,大大減小了模型參數,使得深度學習模型訓練成爲了可能。但因爲誕生於1998年,GPU的概念都尚未提出,CPU的性能又是極其低下,並且LetNet-5只能使用在手寫字識別等很簡單的應用場景,故一直沒有火起來。但做爲CNN應用的開山鼻祖,學習CNN勢必先從學習LetNet-5開始。LeNet-5網絡結構以下圖函數
LeNet-5輸入爲32x32的二維像素矩陣,因爲是灰度圖,輸入通道爲1,其正向傳播步驟爲性能
LeNet-5的特色以下學習
AlexNet在2012年以16.4%的顯著優點問鼎ILSVRC的冠軍,從新燃起了人們對於深度學習研究的熱情。它第一次採用了relu,dropout,GPU加速等技巧,參數量爲6000萬,模型大小240M左右。其網絡結構以下spa
AlexNet輸入圖片爲224x224, 輸入爲RGB三通道。正向傳播共5個卷積層和3個全鏈接層,步驟爲設計
AlexNet的結構特色爲orm
VGG爲ILSVRC 2014年第二名,它探索了卷積網絡深度和性能,準確率之間的關係。經過反覆堆疊3x3卷積和2x2的池化,獲得了最大19層的深度。VGG19模型大概508M,錯誤率下降到7.3%。VGG模型不復雜,只有3x3這一種卷積核,卷積層基本就是卷積-relu-池化的結構,沒有使用LRN,結構以下圖。圖片
VGG的特色以下ip
Google Inception是一個你們族,包括inceptionV1 inceptionV2 inceptionV3 inceptionV4等結構。它主要不是對網絡深度的探索,而是進行了網絡結構的改進。inceptionV1擊敗了VGG,奪得2014年ILSVRC冠軍。以後Google又對其網絡結構進行了諸多改進,從而造成了一個你們族。
inceptionV1是一個設計十分精巧的網絡,它有22層深,只有500萬左右的參數量,模型大小僅爲20M左右,但錯誤率卻只有6.7%。它的網絡結構特色以下
inception module分爲並聯的四路,分別爲單獨的1x1卷積,1x1並聯3x3, 1x1並聯5x5, 池化後1x1卷積。使用不一樣的卷積結構來提取不一樣特徵,而後將他們組合在一塊兒來輸出。
inceptionV2和V1網絡結構大致類似,其模型大小爲40M左右,錯誤率僅4.8%,低於人眼識別的錯誤率5.1%。主要改進以下
inceptionV3的網絡結構也沒太大變化,其模型大小96M左右。主要改進以下
inceptionV4主要是借鑑了resNet殘差網絡的思想,能夠看作是inceptionV3和resNet的結合。inceptionV4模型大小163M,錯誤率僅僅爲3.08%。主要在ResNet網絡中講解
ResNet由微軟提出,並奪得了2015年ILSVRC大賽的冠軍。它以152層的網絡深度,將錯誤率下降到只有3.57%,遠遠低於5.1%的人眼識別錯誤率。它一樣利用全局平均池化來代替全鏈接層,使得152層網絡的模型不至於太大。網絡中使用了1x1 3x3 5x5 7x7等不一樣尺寸的卷積核,從而提升卷積的多樣性。resNetV1_152模型大小爲214M,不算太大。
ResNet提出了殘差思想,將輸入中的一部分數據不通過神經網絡,而直接進入到輸出中。這樣來保留一部分原始信息,防止反向傳播時的梯度彌散問題,從而使得網絡深度一舉達到152層。當前有不少人甚至訓練了1000多層的網絡,固然咱們實際使用中100多層的就遠遠足夠了。殘差網絡以下圖
ResNet的主要特色,就一個字,深!
ResNetV2相對於V1的最大變化,就是借鑑了inceptionV2的BN歸一化思想,這樣來減小模型訓練時間。
爲了能將模型部署在終端上,須要在保證準確率的前提下,減少模型體積,並下降預測時的計算時間,以提升實時性。爲了能到達這一目的,Google提出了mobileNet框架。最終mobileNetV1_1.0_224模型以16M的大小,能夠達到90%的top-5準確率。模型甚至能夠壓縮得更小,mobileNetV1_0.25_128只有10M左右,仍然能達到80%的準確率。
mobileNet模型的核心是,將一個普通的卷積拆分紅了一個depthwise卷積和一個1x1的普通卷積(也叫pointwise卷積)。depthwise卷積層的每一個卷積只和輸入的某一個channel進行計算,而combining則由1x1的卷積來負責。以下圖
對於卷積核dk*dk,輸入通道爲M,輸出通道爲N的普通卷積,每一個輸出通道都是由M個卷積分別和輸入通道作計算,而後累加出來,因此須要的參數量爲dk x dk x M x N。而對於depthwise卷積,每一個卷積只和輸入通道的某一個通道發生計算,而且不須要累加操做,其卷積後的輸出通道和輸入通道相等,仍然爲M。而後再通過一層1x1的普通卷積。故其參數爲dk x dk x M + 1 x 1 x M x N。
mobileNet參數量比原來減小了多少呢,咱們由下面的計算能夠得出
(dk x dk x M + 1 x 1 x M x N) / (dk x dk x M x N) = 1/N + 1/(dk^2)
因爲輸出通道通常都比較大,爲48 96 甚至4096, 故通常取1/(dk^2), 對於最多見的3x3卷積,mobileNet參數量能夠下降爲原來的1/9.
mobileNet一共包含28層,第一層的卷積爲普通卷積,以後的卷積爲分解的3x3 depthwise卷積和1x1 pointwise卷積。另外,最後有一個全局平均池化層和全鏈接層。並利用softmax獲得分類結果。以下圖所示
7.3 mobileNet可裁剪化
爲了獲得更小的模型,mobileNet還能夠進行輸入通道和分辨率的剪裁,稱爲Width Multiplier 和 Resolution Multiplier。Width Multiplier 表示輸入通道變爲baseline的多少倍, Resolution Multiplier表示輸入圖像縮小爲多少。通過剪裁後的mobileNetV1_0.25_128模型,只有10M左右,準確率仍然可達到80%左右。做爲端上圖像預處理徹底足夠。下面是Width Multiplier 和 Resolution Multiplier的結果
CNN已經普遍應用在物體識別和分類領域,短短几年間就出現了AlexNet VGG inception ResNet等優秀的神經網絡結構,而且每隔幾個月就問世一種優秀網絡結構,能夠說是百花齊放。這要歸功於TensorFlow等框架的成熟和GPU等硬件性能的提高,使得網絡結構的設計和驗證日趨平民化。各類網絡結構,其實本質上也是在解決神經網絡的幾大痛點問題,以下
學習網絡模型,不該該去死記硬背,由於有源源不斷的網絡結構涌現。咱們應該重點掌握每一個模型的特色,以及他們是如何來解決上面列舉的這些神經網絡痛點的。