[李宏毅-機器學習]Tips for deep learning

  Activation fucntion sigmoid對深層網絡效果不好,可能會導致梯度消失問題 sigmoid對輸入比較大,得到的輸出比較小 ReLU   Maxout 自動學習出來需要的activation function   梯度下降優化方式 AdaGrad   RMSProp Adagrad改進版,對過去和現在的梯度(不帶方向,平方去掉了方向)進行加權   動量Momentum 用於
相關文章
相關標籤/搜索