深度模型中的優化算法

某豬場的筆試題問到了深度學習中的優化算法,由於準備不足撲街了,後來補了一下這方面的知識,整理如下: 基本算法 隨機梯度下降(SGD) 實踐中,一般會線性衰減學習率直到第 τ 次迭代: ϵk=(1−α)ϵ0+αϵτ 其中, α=kτ 。在 τ 布迭代之後,一般使 ϵ 保持常數。 動量(momentum) 如果動量算法總是觀測到梯度 g ,那麼它會在方向 −g 上不停加速,直到達到最終速度,其中步長大
相關文章
相關標籤/搜索