[論文閱讀] Batch Normalization: Accelerating Deep Network Training By Reducing Internal Covariate Shift

Background 存在什麼問題? 訓練深度神經網絡是比較複雜的,因爲每層輸入的分佈在訓練過程中都在變化。如果每層輸入的分佈在不停的變化,那我們就需要不停的調整我們的參數去補償這部分變化,這就使得訓練過程更加緩慢。 此外,由於分佈的變化使得使用saturating nonlinearity function變得更加難以訓練。 首先我們區分什麼是saturating,什麼是non-saturati
相關文章
相關標籤/搜索