參考論文:ImageNet Classification with Deep Convolutional Neural Networks網絡
1.特色
1.1 ReLU Nonlinearity的提出
- ReLU是非飽和非線性函數,f(x) = max(0, x),收斂速度比飽和激活函數快。
優缺點:
- ReLU部分解決了sigmoid的飽和性,缺點是在小於0的地方會出現神經單元死亡,而且不能復活的狀況。因此,有關於ReLU的改進方法的提出(leaky ReLU, parameterized ReLU, random ReLU)
- 計算簡單。
- 收斂速度快。
1.2 多GPU訓練
並行化的方法是將kernel matrix劃分爲兩部分各自放在不一樣的GPU上。app
GPU之間的通訊只發生在部分層。dom
5個卷積層,3個全鏈接層。ide
1.3 Local Response Normalization
側面抑制。也就是當前單元激活值,除以兩邊單元激活值。也就是說,若是一個單元激活值兩邊的值比它大一些的話,它本身將受到抑制,值會變小。函數
這也是一種正則化的方法。(brightness normalization)測試
1.4 Overlapping Pooling
- stride < kernei_size 那麼就會出現重疊池化現象,有利於防止過擬合。
2.防止過擬合的方法
2.1 Data Augmentation
- 截取圖的不一樣位置圖,以及鏡像變換。
- 利用PCA,add multiples of the found principal components.
2.2 Dropout
- 訓練的時候讓這一層部分神經單元輸出爲0,且不參與反向傳播。
- 測試的時候讓這一層利用上全部的神經單元,可是他們的輸出值乘上0.5。
- 解釋是,輸出乘0.5用來近似指數級dropout網絡的幾何均值。