李宏毅《機器學習》課程筆記(作業三:反向傳播)

深度學習裏面的梯度下降中,在計算梯度的時候有兩個過程,分別是前向過程和反向過程,很容易理解。 然後在用sigmod作爲激活函數的時候,會出現梯度衰減的問題,導致第一層還只做了一點點梯度下降的時候最後一層已經訓練好了。爲了解決這個問題,2006年最早的文章使用PRM來逐層訓練,成功避免了這個問題。但是這樣非常複雜。後來hilton提出了一個新的方法,使用ReLU,變成了線性的激活函數。雖然單個神經元
相關文章
相關標籤/搜索