【機器學習之數學】01 導數、偏導數、方向導數、梯度

時間 2019-12-12

標籤機器學習之數學導數方向梯度简体版

原文原文鏈接

目錄html

最近學習《最優化導論》，遇到了「方向導數」這一律念，故對其及相關概念進行一遍梳理。並給出方向導數的推導過程。git

導數、偏導數和方向導數

在一元可導函數 \(y = f(x)\) 中，導數 \(f'(x_0)\) 便是曲線上 \(x = x_0\) 處的斜率。按照定義求導數：
\[ f'(x) = \lim_{\Delta x \to 0}\frac{f(x+ \Delta x) - f(x)}{\Delta x} \tag{1} \]github

固然，咱們也能夠經過各類求導法則來計算導數。機器學習

對一個 \(R^m \to R\) 的多元可導函數，\(y=f(\bm x),\bm x = [x_1, x_2, ..., x_m]^\top\)，咱們可以求的導數就多，如偏導數、方向導數，但歸根到底，這些導數均可以認爲是曲面上一點在某個方向的斜率。對於 \(m\le 2\) 的狀況，咱們還可以經過座標系很直觀地瞭解；當 \(m > 2\) 時，咱們能夠從向量空間的角度理解。函數

偏導數是指 \(y=f(\bm x)\) 對 \(\bm x = [x_1, x_2, ..., x_m]^\top\) 中的某一維進行求導，以下式（2）所示，對第 \(i\) 維求偏導數：
\[ \begin{split} \frac{\partial f(\bm x)}{\partial x_i} &= \frac{\partial f(x_1, x_2, ...,x_i,..., x_m)}{\partial x_i} \\ &= \lim_{\Delta x_i \to 0}\frac{f(x_1, x_2, ...,x_i + \Delta x_i,..., x_m) - f(x_1, x_2, ...,x_i,..., x_m)}{\Delta x_i} \end{split} \tag{2} \]學習

方向導數就更好理解了，\(y=f(\bm x)\) 對 \(\bm x = [x_1, x_2, ..., x_m]^\top\) 構成的向量空間 \(R^m\) 中某一方向 \(\bm d' = [\Delta x_1, \Delta x_2, ..., \Delta x_m]^\top\) 求導數，即獲得該方向上的方向導數 \(\frac{\partial f(\bm x)}{\partial \bm d'}\)，如式（3）所示：
\[ \begin{split} \frac{\partial f(\bm x)}{\partial \bm d'} &= \frac{\partial f(x_1, x_2,..., x_m)}{\partial x_i} \\ &= \lim_{\rho \to 0}\frac{f(x_1 + \Delta x_1, x_2 +\Delta x_2, ..., x_m +\Delta x_m) - f(x_1, x_2, ..., x_m)}{\rho} \\ &\rho = \sqrt{\Delta x_1^2 + \Delta x_2^2 + \cdots +\Delta x_m^2} \end{split} \tag{3} \]優化

方向導數和偏導數是什麼關係？對於多元可導函數 \(y=f(\bm x),\bm x = [x_1, x_2, ..., x_m]^\top\)，在其上任一點 \(\bm x_i\)，咱們均可以在向量空間 \(R^m\) 中的每個方向均可以計算一個方向導數，也就是超平面上點 \(\bm x_i\) 在每個方向切線的「斜率」。這裏「每個方向」天然包括各個偏導數的方向。即偏導數構成的集合 A 是方向導數構成集合 B 的子集。spa

方向導數的推導過程

\(f(\boldsymbol x)\) 是一個 \(R^m \to R\) 的函數，若是咱們要求 \(f(\boldsymbol x)\) 在任一點 \(\boldsymbol x_0 = [x_1^{0}, x_2^{0}, ..., x_m^{0}]^\top\) 點方向爲 \(\boldsymbol d\) 的方向導數，那麼按照定義，咱們獲得以下公式：
\[ \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}\mid_{\boldsymbol x = \boldsymbol x_0} = \lim_{\alpha \to 0}\frac{f(\boldsymbol x_0 + \alpha \boldsymbol d) - f(\boldsymbol x_0)}{\alpha} \tag{4} \].net

式（4）中，\(\boldsymbol d\) 爲單位向量。公式（4）實際上是公式（3）的向量形式。（plus：公式（3）中 \(d'\) 不是單位向量，故加上 \('\) 來區分）htm

設 \(g(\alpha) = f(x_0+\alpha \boldsymbol d)\)，咱們注意到，\(g(0) = f(x_0)\)，因此，式（4）又能夠寫爲：
\[ \begin{split} \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}\mid_{\boldsymbol x = \boldsymbol x_0} & = \lim_{\alpha \to 0}\frac{g(\alpha) - g(0)}{\alpha} \\ &= \frac{d g(\alpha)}{d \alpha}\mid_{\alpha = 0} \\ &= \frac{d f(\boldsymbol x_0+\alpha \boldsymbol d)}{d \alpha}|_{\alpha = 0} \\ &= \nabla f(\boldsymbol x_0)^\top\boldsymbol d \\ &= <\nabla f(\boldsymbol x_0), \boldsymbol d> \\ &= \boldsymbol d^\top\nabla f(\boldsymbol x_0) \end{split} \tag{5} \]

因此，
\[ \frac{\partial f(\boldsymbol x)}{\partial \boldsymbol d}= \boldsymbol d^\top\nabla f(\boldsymbol x) \tag{6} \]

方向導數和梯度

首先明確，導數是一個值，表明切線的斜率，而梯度是一個向量。最大方向導數的方向就是梯度表明的方向。

梯度是 \(f(\bm x)\) 對各個自變量\(\bm x = [x_1, x_2, ..., x_m]^\top\) 每一維分別求偏導數獲得的向量。

從式（5）和（6）中咱們也能夠知道，當 \(\bm d = \frac{\nabla f(\bm x)}{\|\nabla f(\bm x)\|}\)，方向導數最大。 最大方向導數的方向就是梯度，最大的方向導數就是梯度的歐幾里德範數。

References

如何直觀形象的理解方向導數與梯度以及它們之間的關係？-- 馬同窗
 方向導數與梯度——學習筆記 -- Reclusiveman
[機器學習] ML重要概念：梯度（Gradient）與梯度降低法（Gradient Descent）-- WangBo_NLPR
Edwin K. P. Chong, Stanislaw H. Zak-An Introduction to Optimization, 4th Edition

【機器學習之數學】01 導數、偏導數、方向導數、梯度

導數、偏導數和方向導數

方向導數的推導過程

方向導數和梯度

References

相關博客