深度模型中relu激活函數的不足,batch normalization怎麼解決梯度消失爆炸的數值問題

目錄 1.relu激活函數 提出的原因: Relu = max(x, 0)的思想: relu的主要貢獻在於: 存在的一些缺點: 2.針對relu的一個不足:輸出不是以0爲中心,如何解決 3 batch normalization 3.1 BatchNorm的作用是什麼呢? 3.2 爲什麼神經網絡在訓練開始之前,要對輸入的數據做Normalization? 3.3 BatchNorm要解決什麼問題?
相關文章
相關標籤/搜索