BN層原理解析

前幾天看了BN的那篇經典論文《《Batch Normalization_ Accelerating Deep Network Training by Reducing Internal Covariate Shift》,心中留有不少疑惑,今天大概弄明白了,這裏記錄一下。前端 1 訓練數據爲何要和測試數據同分布?網絡 看看下圖,若是咱們的網絡在左上角的數據訓練的,已經找到了二者的分隔面w,若是測試數
相關文章
相關標籤/搜索