產生消失的梯度問題的原因

產生消失的梯度問題的原因 先看一個極簡單的深度神經網絡:每一層都只有一個單一的神經元。如下圖: 代價函數C對偏置b1的偏導數的結果計算如下: 先看一下sigmoid 函數導數的圖像: 該導數在σ′(0) = 1/4時達到最高。現在,如果我們使用標準方法來初始化網絡中的權重,那麼會使用一個均值爲0 標準差爲1 的高斯分佈。因此所有的權重通常會滿足|wj|<1。從而有wjσ′(zj) < 1/4。 這
相關文章
相關標籤/搜索