[李宏毅-機器學習]Tips for deep learning

時間 2020-12-24

標籤深度學習简体版

原文原文鏈接

Activation fucntion sigmoid對深層網絡效果不好，可能會導致梯度消失問題 sigmoid對輸入比較大，得到的輸出比較小 ReLU Maxout 自動學習出來需要的activation function 梯度下降優化方式 AdaGrad RMSProp Adagrad改進版，對過去和現在的梯度（不帶方向，平方去掉了方向）進行加權動量Momentum 用於

>>阅读原文<<