BN層原理解析

前幾天看了BN的那篇經典論文《《Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift》,心中留有很多疑惑,今天大概弄明白了,這裏記錄一下。 1 訓練數據爲什麼要和測試數據同分布? 看看下圖,如果我們的網絡在左上角的數據訓練的,已經找到了兩者的分隔面w,如果測試數據是右
相關文章
相關標籤/搜索