爲何要將不一樣的網絡結構網絡
模型的進化ide
AlexNet(本節的重點)函數
深度學習的引爆點學習
在2010年的比賽中,在1000個圖片的分類任務上,可以達到15.3%的錯誤率,而傳統的方法的錯誤率是26.2%cdn
網絡結構blog
橫向上:圖片
縱向上:深度學習
第一層:it
Alexnet首次使用了Relu激活函數io
訓練速度很是快,下圖橫座標是迭代次數,縱座標是錯誤率,sigmoid激活函數時虛線,relu是實線,能夠看到relu訓練的時間是sigmoid的6倍左右
2-GPU並行結構
1,2,5卷積層後面都跟隨着max-pooling
並非全部的卷積層都要跟着pooling層,可使用步長大於1的方式也可使得圖像變小
兩個全鏈接層使用了dropout
每次都隨機的把上一層的神經元置成0,使得他對下層的神經元不起貢獻做用。
爲何把dropout用到全鏈接層上
dropout原理解釋
組合解釋
動機解釋
消除了神經單元之向的依賴,加強泛化能力(過擬合是神經元記住了全部的數據,記住數據須要多個神經元配合,而dropout每次都隨機的刪除了一些神經元,這時他對數據的記憶就不存在了)
數據解釋
其餘細節