最速降低法以及代碼實現

因爲最近複習最優化考試,爲了防止考完即忘,這裏作個筆記用於備忘,本文講解一下無約束優化問題中的最速降低法。python

1、解決的問題

最速梯度降低法解決的問題是無約束優化問題,而所謂的無約束優化問題就是對目標函數的求解,沒有任何的約束限制的優化問題,好比求下方最小值:minf(x)app

其中的函數f:R^n\rightarrow R.函數

求解這類的問題能夠分爲兩大類:一個是最優條件法和迭代法。優化

  • 最優條件法是是指當函數存在解析形式,可以經過最優性條件求解出顯式最優解。對於無約束最優化問題,若是f(x)在最優勢x*附近可微,那麼x*是局部極小點的必要條件爲:df(x*)=0咱們經常就是經過這個必要條件去求取可能的極小值點,再驗證這些點是否真的是極小值點。當上式方程能夠求解的時候,無約束最優化問題基本就解決了。
  • 實際中,這個方程每每難以求解。這就引出了第二大類方法:迭代法。

今天咱們來看一種迭代法,最速梯度降低法!ui

2、最速梯度降低法

下面先給出最速梯度降低法的計算步驟:spa

由以上計算步驟可知,最速降低法迭代終止時,求得的是目標函數駐點的一個近似點。3d

其中肯定最優步長t_{k}的方法以下:code

3、最速梯度降低法直觀理解

在上面給出了最速梯度降低法的計算步驟,這裏給出它的一些直觀理解。blog

第一步:token

第一步就是迭代法的初始點選擇。

第二步:

可能有童鞋問這裏的第二步的迭代終止條件爲何是||d f(x^k) \leq \varepsilon||?

這是由於根據下面這個定理:

也就是說,咱們最終若是到達了局部最優解的話,求出來的梯度值是爲0的,也就是說該點梯度爲0是該點是局部最優解的必要條件。

因此咱們的終止條件就是到達某處的梯度爲0,在一些條件不是太苛刻的狀況下,咱們也能夠不讓它嚴格爲0,只是逼近於0便可。這就是第二步的解釋。

第三步:

這步在是在選取迭代方向,也就是從當前點迭代的方向。這裏選取當前點的梯度負方向,爲何選擇這個方向,是由於梯度的負方向是局部降低最快的方向,這裏不詳細證實,能夠參考我之前的一個回答:爲何梯度反方向是函數值局部降低最快的方向?

第四步:

第四步也是很是重要的,由於在第三步咱們雖然肯定了迭代方向,而且知道這個方向是局部函數值降低最快的方向,可是尚未肯定走的步長,若是選取的步長不合適,也是很是不可取的,下面會給出一個例子圖,那麼第四步的做用就是在肯定迭代方向的前提上,肯定在該方向上使得函數值最小的迭代步長。

下面給出迭代步長過大太小都很差的例子圖:

 

從上圖能夠看出,選擇一個合適的步長是很是最重要的,這直接決定咱們的收斂速度。

4、最速梯度降低法實例

所以咱們找到了近似最優解:X^3,而後將X^3帶入f(x)中,便可獲得要求的最小值。

5、最速降低法的缺點

須要指出的是,某點的負梯度方向,一般只是在該點附近才具備這種最速降低的性質。

在通常狀況下,當用最速降低法尋找極小點時,其搜索路徑呈直角鋸齒狀(以下圖),在開頭 幾步,目標函數降低較快;但在接近極小點時,收斂速度長久不理想了。特別適當目標函數的等值 線爲比較扁平的橢圓時,收斂就更慢了。

所以,在實用中經常使用最速降低法和其餘方法聯合應用,在前期使用最速降低法,而在接近極小值點時,可改用收斂較快的其餘方法。

6、最速降低法代碼實現

import numpy as np from sympy import * import math import matplotlib.pyplot as plt import mpl_toolkits.axisartist as axisartist # 定義符號 x1, x2, t = symbols('x1, x2, t') def func(): # 自定義一個函數 return 2 * pow(x1, 2) + pow(x2, 2) + 2 * x1 * x2 - x2 + x1 def grad(data): # 求梯度向量,data=[data1, data2] f = func() grad_vec = [diff(f, x1), diff(f, x2)] # 求偏導數,梯度向量 grad = [] for item in grad_vec: grad.append(item.subs(x1, data[0]).subs(x2, data[1])) return grad def grad_len(grad): # 梯度向量的模長 vec_len = math.sqrt(pow(grad[0], 2) + pow(grad[1], 2)) return vec_len def zhudian(f): # 求得min(t)的駐點 t_diff = diff(f) t_min = solve(t_diff) return t_min def main(X0, theta): f = func() grad_vec = grad(X0) grad_length = grad_len(grad_vec) # 梯度向量的模長 k = 0 data_x = [0] data_y = [0] while grad_length > theta: # 迭代的終止條件 k += 1 p = -np.array(grad_vec) # 迭代 X = np.array(X0) + t * p t_func = f.subs(x1, X[0]).subs(x2, X[1]) t_min = zhudian(t_func) X0 = np.array(X0) + t_min * p grad_vec = grad(X0) grad_length = grad_len(grad_vec) print('grad_length', grad_length) print('座標', X0[0], X0[1]) data_x.append(X0[0]) data_y.append(X0[1]) print(k) # 繪圖 fig = plt.figure() ax = axisartist.Subplot(fig, 111) fig.add_axes(ax) ax.axis["bottom"].set_axisline_style("-|>", size=1.5) ax.axis["left"].set_axisline_style("->", size=1.5) ax.axis["top"].set_visible(False) ax.axis["right"].set_visible(False) plt.title(r'$Gradient \ method - steepest \ descent \ method$') plt.plot(data_x, data_y, label=r'$f(x_1,x_2)=x_1^2+2 \cdot x_2^2-2 \cdot x_1 \cdot x_2-2 \cdot x_2$') plt.legend() plt.scatter(1, 1, marker=(5, 1), c=5, s=1000) plt.grid() plt.xlabel(r'$x_1$', fontsize=20) plt.ylabel(r'$x_2$', fontsize=20) plt.show() if __name__ == '__main__': # 給定初始迭代點和閾值 main([0, 0], 0.00001) 
相關文章
相關標籤/搜索