深度學習之自適應學習率算法

前言 神經網絡研究員早就意識到學習率肯定是難以設置的超參數之一,因爲它對模型的性能有顯著的影響。損失通常高度敏感於參數空間中的某些方向,而不敏感於其他。 動量算法可以在一定程度緩解這些問題,但這樣做的代價是引入了另一個超參數。在這種情況下,自然會問有沒有其他方法。如果我們相信方向敏感度在某種程度是軸對齊的,那麼每個參數設置不同的學習率,在整個學習過程中自動適應這些學習率是有道理的。Delta-ba
相關文章
相關標籤/搜索