It’s Only Natural: An Excessively Deep Dive Into Natural Gradient Optimization

時間 2021-01-02

原文原文鏈接

我要講一個故事：你以前幾乎肯定聽過的故事，但與你習慣的重點不同。對於第一（階）近似，所有現代深度學習模型都使用梯度下降進行訓練。在梯度下降的每個步驟中，您的參數值從某個起始點開始，然後將它們移動到最大損失減少的方向。你可以通過從你的整個參數向量中獲取損失的導數來實現這一點，否則稱爲雅可比行列式。然而，這只是你損失的第一個衍生物，並沒有告訴你關於曲率的任何信息，或者你的一階導數改變的速度。由於您可