3.1 卷積神經網絡進階-alexnet

4.2.1 卷積神經網絡進階(alexnet)

  • 爲何要將不一樣的網絡結構網絡

    • 不一樣的網絡結構解決的問題不一樣
    • 不一樣的網絡結構使用的技巧不一樣(有的子手段能夠被應用到其餘的模型上)
    • 不一樣的網絡結構應用的場景不一樣(好比移動端須要模型越小越快越好)
  • 模型的進化ide

    • 更深更寬—AlexNet到VGGNet
    • 不一樣的模型結構—VGG到InceptionNet/ResNet
    • 優點組合—Inception+ Res = InceptionResNet
    • 自我學習—NASNet
    • 使用—MobileNet
  • AlexNet(本節的重點)函數

    • 深度學習的引爆點學習

      在2010年的比賽中,在1000個圖片的分類任務上,可以達到15.3%的錯誤率,而傳統的方法的錯誤率是26.2%cdn

      image.png

    • 網絡結構blog

      image.png

      • 橫向上:圖片

        • 輸入是224*224的三通道的圖像
        • 而後通過一個卷積層,卷積層後面帶pooling(池化)
        • 再通過第二個卷積層,後面也帶pooling
        • 而後通過第三個,第四個,第五個卷積層
        • 第五個卷積後又帶pooling
        • 而後通過一個全鏈接層到輸出
      • 縱向上:深度學習

        • 有一個分割,表明的是網絡分佈在兩個gpu上,兩個gpu把卷積核分紅了兩部分,分別是48個卷積核,兩部分作的是一樣的事情
        • 到第三個卷積層有一個交叉,第三個卷積層的兩個卷積核的輸入分別是前面神經元提取出來的綜合
        • 到第四個第五個卷積核又保持了獨立性
        • 到全鏈接層就又合到一塊兒了
        • 兩個gpu可使得神經網絡更大更快

        image.png

      • 第一層:it

        • 輸入224*224
        • stride = 4,卷積核 11*11
        • 輸出大小 = (輸入大小-卷積核大小+padding)/stride + 1 = 55 (這裏padding等於3)
        • 參數數目 = 3*(11*11)*96 = 35k
      • Alexnet首次使用了Relu激活函數io

        訓練速度很是快,下圖橫座標是迭代次數,縱座標是錯誤率,sigmoid激活函數時虛線,relu是實線,能夠看到relu訓練的時間是sigmoid的6倍左右

        image.png

      • 2-GPU並行結構

      • 1,2,5卷積層後面都跟隨着max-pooling

        並非全部的卷積層都要跟着pooling層,可使用步長大於1的方式也可使得圖像變小

      • 兩個全鏈接層使用了dropout

        每次都隨機的把上一層的神經元置成0,使得他對下層的神經元不起貢獻做用。

        image.png

      • 爲何把dropout用到全鏈接層上

        • 全鏈接層參數佔所有參數數目的大部分,容易過擬合
      • dropout原理解釋

        • 組合解釋

          • 每次dropout都至關於訓練了一個子網絡
          • 最後的結果至關於不少子網絡組合
        • 動機解釋

          消除了神經單元之向的依賴,加強泛化能力(過擬合是神經元記住了全部的數據,記住數據須要多個神經元配合,而dropout每次都隨機的刪除了一些神經元,這時他對數據的記憶就不存在了)

        • 數據解釋

          • 對於dropout後的結果,總能找到一個樣本與其對應(例:原有一個全鏈接的輸出是(1,2,3,4,5,6),dropout後可能變成了(1,0,3,4,0,6),刪除了2,5。能夠認爲,總能找到一個新的樣本,這個樣本就是(1,0,3,4,0,6),因此dropout至關因而增長了樣本數)
          • 至關於數據加強
      • 其餘細節

        • 數據加強,圖片隨機採樣
          • [256,256] 採樣[224,224] ,至關於輸入一張圖像,可能會從不一樣角度採樣出不少張
        • Dropout = 0.5
        • Batch Size = 128
        • SGD momentum = 0.9
        • Learning rate = 0.01,過必定次數下降爲1/10
        • 7個CNN作ensemble:18.2%->15.4%
相關文章
相關標籤/搜索