sigmoid不是以0爲中心造成的後果及原因

後果 有可能導致網絡收斂慢(我認爲在某一層反向傳播中,如果參數們本來就是都要增,都要減,那麼在這一層收斂不受影響)如果參數們有的需要增有的需要減,這種情況下,收斂就像第二張圖,明明可以走綠線進行收斂,但不得不走了紅線,這是因爲參數們只能同增或同減,那麼爲什麼會這樣呢,下面解釋,(注意我們的論證都是在反向傳播某一層中) 原因 權重更新的公式(它也有變形,但意思一樣): 對於神經元A來說,wi更新的方
相關文章
相關標籤/搜索