13權值初始化

一、梯度消失與爆炸 從上圖可知,每一網絡層輸出不能太大或太小,否則會導致梯度爆炸或者梯度消失 對權重W進行處理,使其方差爲 1 / n 1/n 1/n,則隱藏輸出的方差也爲1,這樣使得經過累乘,依然保持到一個很小的數 二、Xavier方法與Kaiming方法 2.1 Xavier方法 方差一致性: 保持數據尺度維持在恰當範圍,通常方差爲1 激活函數: 飽和函數, 如Sigmoid, Tanh 2.
相關文章
相關標籤/搜索