BN原理、做用:
函數參數講解:
BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
1.num_features:通常輸入參數爲batch_sizenum_featuresheight*width,即爲其中特徵的數量,即爲輸入BN層的通道數;
2.eps:分母中添加的一個值,目的是爲了計算的穩定性,默認爲:1e-5,避免分母爲0;
3.momentum:一個用於運行過程當中均值和方差的一個估計參數(個人理解是一個穩定係數,相似於SGD中的momentum的係數);
4.affine:當設爲true時,會給定能夠學習的係數矩陣gamma和beta
通常來講pytorch中的模型都是繼承nn.Module類的,都有一個屬性trainning指定是不是訓練狀態,訓練狀態與否將會影響到某些層的參數是不是固定的,好比BN層或者Dropout層。一般用model.train()指定當前模型model爲訓練狀態,model.eval()指定當前模型爲測試狀態。
同時,BN的API中有幾個參數須要比較關心的,一個是affine指定是否須要仿射,還有個是track_running_stats指定是否跟蹤當前batch的統計特性。容易出現問題也正好是這三個參數:trainning,affine,track_running_stats。
其中的affine指定是否須要仿射,也就是是否須要上面算式的第四個,若是affine=False則γ=1,β=0,而且不能學習被更新。通常都會設置成affine=True。
trainning和track_running_stats,track_running_stats=True表示跟蹤整個訓練過程當中的batch的統計特性,獲得方差和均值,而不僅是僅僅依賴與當前輸入的batch的統計特性。相反的,若是track_running_stats=False那麼就只是計算當前輸入的batch的統計特性中的均值和方差了。當在推理階段的時候,若是track_running_stats=False,此時若是batch_size比較小,那麼其統計特性就會和全局統計特性有着較大誤差,可能致使糟糕的效果。
若是BatchNorm2d的參數track_running_stats設置False,那麼加載預訓練後每次模型測試測試集的結果時都不同;track_running_stats設置爲True時,每次獲得的結果都同樣。
running_mean和running_var參數是根據輸入的batch的統計特性計算的,嚴格來講不算是「學習」到的參數,不過對於整個計算是很重要的。BN層中的running_mean和running_var的更新是在forward操做中進行的,而不是在optimizer.step()中進行的,所以若是處於訓練中泰,就算不進行手動step(),BN的統計特性也會變化。
python
model.train() #處於訓練狀態 for data , label in self.dataloader: pred =model(data) #在這裏會更新model中的BN統計特性參數,running_mean,running_var loss=self.loss(pred,label) #就算不進行下列三行,BN的統計特性參數也會變化 opt.zero_grad() loss.backward() opt.step()
這個時候,要用model.eval()轉到測試階段,才能固定住running_mean和running_var,有時候若是是先預訓練模型而後加載模型,從新跑測試數據的時候,結果不一樣,有一點性能上的損失,這個時候基本上是training和track_running_stats設置的不對。
若是使用兩個模型進行聯合訓練,爲了收斂更容易控制,先預訓練好模型model_A,而且model_A內還有若干BN層,後續須要將model_A做爲一個inference推理模型和model_B聯合訓練,此時但願model_A中的BN的統計特性量running_mean和running_var不會亂變化,所以就須要將model_A.eval()設置到測試模型,不然在trainning模式下,就算是不去更新模型的參數,其BN都會變化,這將致使和預期不一樣的結果。
函數