激活函數ReLU爲什麼比Sigmoid效果好_梯度消失

參考: https://blog.csdn.net/u014114990/article/details/50144653 第一個問題:爲什麼引入非線性激勵函數? 如果不用激勵函數(其實相當於激勵函數是f(x) = x),在這種情況下你每一層輸出都是上層輸入的線性函數,很容易驗證,無論你神經網絡有多少層,輸出都是輸入的線性組合,與只有一個隱藏層效果相當,這種情況就是多層感知機(MLP)了。 正因爲
相關文章
相關標籤/搜索