神經網絡梯度與歸一化問題總結+highway network、ResNet的思考

這是一篇水貨寫的筆記,希望路過的大牛可以指出其中的錯誤,帶蒟蒻飛啊~   一、    梯度消失/梯度爆炸的問題 首先來說說梯度消失問題產生的原因吧,雖然是已經被各大牛說爛的東西。不如先看一個簡單的網絡結構,   可以看到,如果輸出層的值僅是輸入層的值與權值矩陣W的線性組合,那麼最終網絡最終的輸出會變成輸入數據的線性組合。這樣很明顯沒有辦法模擬出非線性的情況。記得神經網絡是可以擬合任意函數的。好了,
相關文章
相關標籤/搜索