batch norm爲什麼會work:How Does Batch Normalizetion Help Optimization

BN的作用是顯而易見的:加速收斂,降低對lr的敏感性。 BN的作者認爲,BN層把輸入數據,變成了獨立同分布的狀態,這是BN work的原因。MIT MIT的文章反駁了上述觀點:how Does Batch Normalizetion Help Optimization 下面的實驗每層都有BN,但是由於添加了噪聲,層間分佈已經不同了。在這種情況下能收斂,反駁了獨立同分布是BN收斂的原因。 MIT的文
相關文章
相關標籤/搜索