學習筆記之Batch Normalization

學習筆記之Batch Normalization 本文參考:臺大李宏毅老師 梯度消失或者梯度爆炸是什麼? 鏈接1 鏈接2 特徵縮放 輸入值大小不一樣會導致出現梯度消失或者爆炸的現象 比如x1的是1,2,…,x2的是100,200,…如果x1和x2一樣重要(w1,w2一樣),那麼顯然x2對a的結果影響大 這樣會導致training變的不容易,橫方向上要給較大的learning rate ,縱方向上給
相關文章
相關標籤/搜索