李宏毅：Batch Normalization

時間 2021-01-02

原文原文鏈接

1、feature scaling （1）經過feature scaling，會讓你的training容易的多。（2）對每一維的i計算均值和標準差，利用公式得到scaling後的feature，這樣會讓你的training收斂地更快。 2、對每一個layer前的input進行feature scaling，但此時會出現一個問題：第一個layer前的feature 是不會變的，但是其它layer的