爲什麼說隨機最速下降法(SGD)是一個很好的方法?

最近在看梯度下降算的時候不明白梯度下降算法經常達到局部極小值爲什麼還要用它,然後就在知乎上看到了這篇文章,將了包括SDG算法的優缺點,我覺得這個是最直接,也是最清晰的解釋了,沒有之一,好文!!! 地址:https://zhuanlan.zhihu.com/p/27609238 假如我們要優化一個函數 ,即找到它的最小值, 常用的方法叫做Gradient Descent (GD), 也就是最速下降法
相關文章
相關標籤/搜索