BatchNorm2d原理、做用及其pytorch中BatchNorm2d函數的參數講解

BN原理、做用：

函數參數講解：

BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

1.num_features：通常輸入參數爲batch_sizenum_featuresheight*width，即爲其中特徵的數量，即爲輸入BN層的通道數；
2.eps：分母中添加的一個值，目的是爲了計算的穩定性，默認爲：1e-5,避免分母爲0；
3.momentum：一個用於運行過程當中均值和方差的一個估計參數（個人理解是一個穩定係數，相似於SGD中的momentum的係數）；
4.affine：當設爲true時，會給定能夠學習的係數矩陣gamma和beta
通常來講pytorch中的模型都是繼承nn.Module類的，都有一個屬性trainning指定是不是訓練狀態，訓練狀態與否將會影響到某些層的參數是不是固定的，好比BN層或者Dropout層。一般用model.train()指定當前模型model爲訓練狀態,model.eval()指定當前模型爲測試狀態。
同時，BN的API中有幾個參數須要比較關心的，一個是affine指定是否須要仿射，還有個是track_running_stats指定是否跟蹤當前batch的統計特性。容易出現問題也正好是這三個參數：trainning，affine，track_running_stats。
其中的affine指定是否須要仿射，也就是是否須要上面算式的第四個，若是affine=False則γ=1,β=0，而且不能學習被更新。通常都會設置成affine=True。
trainning和track_running_stats，track_running_stats=True表示跟蹤整個訓練過程當中的batch的統計特性，獲得方差和均值，而不僅是僅僅依賴與當前輸入的batch的統計特性。相反的，若是track_running_stats=False那麼就只是計算當前輸入的batch的統計特性中的均值和方差了。當在推理階段的時候，若是track_running_stats=False，此時若是batch_size比較小，那麼其統計特性就會和全局統計特性有着較大誤差，可能致使糟糕的效果。
若是BatchNorm2d的參數track_running_stats設置False,那麼加載預訓練後每次模型測試測試集的結果時都不同；track_running_stats設置爲True時，每次獲得的結果都同樣。
running_mean和running_var參數是根據輸入的batch的統計特性計算的，嚴格來講不算是「學習」到的參數，不過對於整個計算是很重要的。BN層中的running_mean和running_var的更新是在forward操做中進行的，而不是在optimizer.step()中進行的，所以若是處於訓練中泰，就算不進行手動step()，BN的統計特性也會變化。

python

model.train() #處於訓練狀態
for data , label in self.dataloader:
    pred =model(data)  #在這裏會更新model中的BN統計特性參數，running_mean,running_var
    loss=self.loss(pred,label)
    #就算不進行下列三行，BN的統計特性參數也會變化
    opt.zero_grad()
    loss.backward()
    opt.step()

這個時候，要用model.eval()轉到測試階段，才能固定住running_mean和running_var，有時候若是是先預訓練模型而後加載模型，從新跑測試數據的時候，結果不一樣，有一點性能上的損失，這個時候基本上是training和track_running_stats設置的不對。
若是使用兩個模型進行聯合訓練，爲了收斂更容易控制，先預訓練好模型model_A，而且model_A內還有若干BN層，後續須要將model_A做爲一個inference推理模型和model_B聯合訓練，此時但願model_A中的BN的統計特性量running_mean和running_var不會亂變化，所以就須要將model_A.eval()設置到測試模型，不然在trainning模式下，就算是不去更新模型的參數，其BN都會變化，這將致使和預期不一樣的結果。
函數