梯度降低(gradient descent)算法簡介

時間 2019-11-06

標籤梯度降低 gradient descent 算法簡介简体版

原文原文鏈接

梯度降低法是一個最優化算法，一般也稱爲最速降低法。最速降低法是求解無約束優化問題最簡單和最古老的方法之一，雖然如今已經不具備實用性，可是許多有效算法都是以它爲基礎進行改進和修正而獲得的。最速降低法是用負梯度方向爲搜索方向的，最速降低法越接近目標值，步長越小，前進越慢。算法

中文名梯度降低
外文名 steepest descent (gradient descent)
用於求解非線性方程組
類型最優化算法機器學習

簡介

梯度降低法(gradient descent)是一個最優化算法，一般也稱爲最速降低法。1學習

經常使用於機器學習和人工智能當中用來遞歸性地逼近最小誤差模型。優化

求解過程

顧名思義，梯度降低法的計算過程就是沿梯度降低的方向求解極小值（也能夠沿梯度上升方向求解極大值）。人工智能

其迭代公式爲 ,其中表明梯度負方向，表示梯度方向上的搜索步長。梯度方向咱們能夠經過對函數求導獲得，步長的肯定比較麻煩，太大了的話可能會發散，過小收斂速度又太慢。通常肯定步長的方法是由線性搜索算法來肯定，即把下一個點的座標看作是a_k+1的函數，而後求知足f(a_k+1)的最小值的便可。3d

由於通常狀況下，梯度向量爲0的話說明是到了一個極值點，此時梯度的幅值也爲0.而採用梯度降低算法進行最優化求解時，算法迭代的終止條件是梯度向量的幅值接近0便可，能夠設置個很是小的常數閾值。code

例子

舉一個很是簡單的例子，如求函數的最小值。blog

利用梯度降低的方法解題步驟以下：遞歸

一、求梯度，

二、向梯度相反的方向移動，以下

，其中，爲步長。若是步長足夠小，則能夠保證每一次迭代都在減少，但可能致使收斂太慢，若是步長太大，則不能保證每一次迭代都減小，也不能保證收斂。

三、循環迭代步驟2，直到的值變化到使得在兩次迭代之間的差值足夠小，好比0.00000001，也就是說，直到兩次迭代計算出來的基本沒有變化，則說明此時已經達到局部最小值了。

四、此時，輸出 x ，這個 x 就是使得函數 f(x) 最小時的 x 的取值。

MATLAB以下：

%% 最速降低法圖示
% 設置步長爲0.1，f_change爲改變先後的y值變化，僅設置了一個退出條件。
syms x;f=x^2;
step=0.1;x=2;k=0;         %設置步長,初始值,迭代記錄數
f_change=x^2;             %初始化差值
f_current=x^2;            %計算當前函數值
ezplot(@(x,f)f-x.^2)       %畫出函數圖像
axis([-2,2,-0.2,3])       %固定座標軸
hold on
while f_change>0.000000001                %設置條件，兩次計算的值之差小於某個數，跳出循環
    x=x-step*2*x;                         %-2*x爲梯度反方向，step爲步長，！最速降低法！
    f_change = f_current - x^2;           %計算兩次函數值之差
    f_current = x^2 ;                     %從新計算當前的函數值
    plot(x,f_current,'ro','markersize',7) %標記當前的位置
    drawnow;pause(0.2);
    k=k+1;
end
hold off
fprintf('在迭代%d次後找到函數最小值爲%e，對應的x值爲%e\n',k,x^2,x)

梯度降低法處理一些複雜的非線性函數會出現問題，例如Rosenbrock函數：

其最小值在(x,y)=(1,1) 處，函數值爲 f(x,y)=0。可是此函數具備狹窄彎曲的山谷，最小點 (x,y)=(1,1)就在這些山谷之中，而且谷底很平。優化過程是之字形的向極小值點靠近，速度很是緩慢。