機器學習中梯度消失、爆炸的原因分析以及解決方案

兩種情況下梯度消失經常出現,一是在深層網絡中,二是採用了不合適的損失函數,比如sigmoid。梯度爆炸一般出現在深層網絡和權值初始化值太大的情況下。 1.深層網絡 從深層網絡角度來講,不同的層學習的速度差異很大,表現爲網絡中靠近輸出的層學習的情況很好,靠近輸入的層學習的很慢,有時甚至訓練了很久,前幾層的權值和剛開始隨機初始化的值差不多。因此,梯度消失、爆炸,其根本原因在於反向傳播訓練法則,屬於先天
相關文章
相關標籤/搜索