常見的幾種梯度下降方法(筆記by李宏毅2020ML)

SGD SGDM:利用之前的梯度跳出可能的局部極小值,類似於物理裏的慣性 Adagrad:小的梯度用一個大的lr,大的梯度用一個小的lr。思考:其實lr一直在減小?只是一個相對之前一步幅度大小? RMSProp:解決前面Adagrad的一直增大問題(前期梯度很大的話一下子就停下來了),類似SGDM考慮之前的梯度 Adam:將SGDM與RMSProp優點結合:綜合了一階和二階梯度的變化
相關文章
相關標籤/搜索