CS224n —— lecture2的重難點講解

1、梯度下降 在進行梯度下降的時候,容易陷入局部最小值,還有一種情況是陷入鞍點。所以可以在梯度下降中加入動量Momentum。 普通的梯度下降的一般算法流程是: update = step * gd parameters = parameters - update 收斂速度會變慢,有時甚至陷入局部最優; 加入動量: update = step * gd velocity = previous_up
相關文章
相關標籤/搜索