It’s Only Natural: An Excessively Deep Dive Into Natural Gradient Optimization

我要講一個故事:你以前幾乎肯定聽過的故事,但與你習慣的重點不同。 對於第一(階)近似,所有現代深度學習模型都使用梯度下降進行訓練。在梯度下降的每個步驟中,您的參數值從某個起始點開始,然後將它們移動到最大損失減少的方向。你可以通過從你的整個參數向量中獲取損失的導數來實現這一點,否則稱爲雅可比行列式。然而,這只是你損失的第一個衍生物,並沒有告訴你關於曲率的任何信息,或者你的一階導數改變的速度。由於您可
相關文章
相關標籤/搜索