谷歌大腦提出「洗髮水」二階優化算法,Transformer訓練時間減少40%,Jeff Dean點贊...

曉查 發自 凹非寺  量子位 報道 | 公衆號 QbitAI 機器學習的優化步驟,目前都是一階方法主導。 無論是SGD還是Adam,此類優化算法在都是計算損失函數的一階導數——梯度,然後按照某種規定的方式讓權重隨梯度下滑方向迭代。 其實二階梯度會有更好的特性,因爲它是計算梯度的導數,能夠更快地找到最合適的下降方向和速度。 然而出於計算量和存儲成本的考慮,二階優化算法很少用到。 最近,谷歌大腦提出了
相關文章
相關標籤/搜索