http://blog.csdn.net/pipisorry/article/details/24574293git
基礎
拐點
若曲線圖形在一點由凸轉凹,或由凹轉凸,則稱此點爲拐點。直觀地說,拐點是使切線穿越曲線的點。github
拐點的必要條件:設在內二階可導,,若是曲線的一個拐點,則。 好比,,有,可是0兩側全是凸,因此0不是函數的拐點。算法
拐點的充分條件:設在內二階可導,,若在兩側附近異號,則點爲曲線的拐點。不然(即保持同號),不是拐點。數組
牛頓法和擬牛頓法(Newton's method & Quasi-Newton Methods)
牛頓法(Newton's method)
又稱爲牛頓-拉弗森方法(Newton-Raphson method),單變量下又稱爲切線法。它是一種在實數域和複數域上近似求解方程的方法。方法使用函數f (x)的泰勒級數的前面幾項來尋找方程f (x) = 0的根。用牛頓迭代法解非線性方程,是把非線性方程f(x) = 0線性化的一種近似方法。函數
把f(x)在點x0的某鄰域內展開成泰勒級數性能
取其線性部分(即泰勒展開的前兩項),並令其等於0,即,以此做爲非線性方程f(x) = 0的近似方程
學習
這樣,獲得牛頓迭代法的一個迭代關係式
優化
已經證實,若是f ' 是連續的,而且待求的零點x是孤立的,那麼在零點x周圍存在一個區域,只要初始值x0位於這個鄰近區域內,那麼牛頓法一定收斂。 而且,若是f ' (x)不爲0, 那麼牛頓法將具備平方收斂的性能。粗略的說,這意味着每迭代一次,牛頓法結果的有效數字將增長一倍。url
因爲牛頓法是基於當前位置的切線來肯定下一次的位置,因此牛頓法又被很形象地稱爲是"切線法"。牛頓法的搜索路徑(二維狀況)以下圖所示:spa
牛頓法搜索動態示例圖:
牛頓法應用於最優化
牛頓法求解非線性函數的最優值點。那牛頓法和極值求解有關係?看起來牛頓法只能求零點啊? 一階導零點不就是函數的極值或者駐點?
1 直接經過求解f(x) = 0的解修改獲得
牛頓法是求解f(x) = 0的解而不是求極小值(固然求f'(x) = 0就是求解f(x)極小值了),且f(xn)/f'(xn)不就是x軸移動的距離嗎。
牛頓法極值求解迭代公式以下
對於高維函數,用牛頓法求極值也是這個形式,只不過這裏的y'和y''都變成了矩陣和向量。並且你也能夠想到,高維函數二階導有多個,寫成矩陣的形式Hessian矩陣:
y'就變成了對全部參數的偏導數組成的向量
迭代公式
然而算的可能很是慢,數也可能很大。簡單的解決辦法,有一種叫作批迭代的方法,不論是在梯度計算極值仍是在牛頓計算極值上都是可行的,就是假設失去大部分點對準確度沒有太大的影響,好比說3個在一條直線上的點,去掉一個也沒什麼關係,最後反正仍是會擬合成同一個參數。批迭代就是在衆多的點中隨機抽取一些,進行迭代計算,再隨機抽取一些再進行迭代。迭代的路徑可能不完美,可是最終仍是會找到咱們想要的答案。(有點相似mini-batch)
固然還有其餘更帥的解決方法,祝如DFP,BFGS,Broyden。
2 f(x)在點x0的某鄰域內泰勒級數二階展開(更嚴謹)
或者使用統計學習方法裏面N>1的方式
牛頓最優化方法
牛頓迭代法評價
關於牛頓法和梯度降低法的效率對比
從本質上去看,牛頓法是二階收斂,梯度降低是一階收斂,因此牛頓法就更快。若是更通俗地說的話,好比你想找一條最短的路徑走到一個盆地的最底部,梯度降低法每次只從你當前所處位置選一個坡度最大的方向走一步,牛頓法在選擇方向時,不只會考慮坡度是否夠大,還會考慮你走了一步以後,坡度是否會變得更大。因此,能夠說牛頓法比梯度降低法看得更遠一點,能更快地走到最底部。(牛頓法目光更加長遠,因此少走彎路;相對而言,梯度降低法只考慮了局部的最優,沒有全局思想。)
Note: lz梯度降低的改進如moment就考慮更多了。
根據wiki上的解釋,從幾何上說,牛頓法就是用一個二次曲面去擬合你當前所處位置的局部曲面,而梯度降低法是用一個平面去擬合當前的局部曲面,一般狀況下,二次曲面的擬合會比平面更好,因此牛頓法選擇的降低路徑會更符合真實的最優降低路徑。
注:紅色的牛頓法的迭代路徑,綠色的是梯度降低法的迭代路徑。
牛頓迭代法的優缺點
牛頓法優勢:二階收斂,收斂速度快;
牛頓法能夠求最優化問題,並且求解精確,通常用牛頓法求得的解成爲ground-truth。
牛頓法缺點:
1 牛頓法是一種迭代算法,每一步都須要求解目標函數的Hessian矩陣的逆矩陣,計算比較複雜。
二階方法實踐中對高維數據不可行。infeasible to compute in practice for high-dimensional data sets, e.g. second-order methods such as Newton's method.
2 可能發生被零除錯誤。當函數在它的零點附近,導函數的絕對值很是小時,運算會出現被零除錯誤。
3 是可能出現死循環。當函數在它的零點有拐點時,可能會使迭代陷入死循環。
Note:f(x) = arctanx, 2階導產生(拐點) f''(x*) = 0。
4 定步長迭代。改進是阻尼牛頓法。
[最優化問題中,牛頓法爲何比梯度降低法求解須要的迭代次數更少? - 知乎]
牛頓迭代法不成功的反例
1 f(x) = x^3 - 3x + 2 = 0。 | f'(x) |很小,零除錯誤。
2 達到極小值?
3 死循環
以上反例說明,牛頓迭代法局部收斂性要求初始點要取得合適,不然致使錯誤結果.
牛頓法收斂性分析
牛頓法爲何能收斂
一個直觀解釋
H正定(則H^-1亦正定),那麼能夠保證牛頓法搜索方向-gk是降低方向。
收斂證實
不動點迭代收斂的定理2.5和定理2.4能夠證實,具體省略。[最優化方法:非線性方程的求極值方法]
牛頓迭代法局部收斂定理
上面示例提到牛頓法可能不收斂,下面討論確保牛頓法收斂的條件。
條件(1)保證了根的存在; 條件(2)要求f(x)是單調函數,且f(x)在a,b上是凸向上或凹向下; 條件(3)保證當xn∈a,b時,有xn+1=φ(x)∈a,b.
關於條件(3),取x0∈a,b使得f(x0)f′′(x0)>0的註記以下:
若是f(x)的二階導數大於零,則函數圖形是凹曲線(有時定義不同,仍是看f''(x)吧).根據條件(3),在方程f(x)=0中,若是函數f''(x)>0,則應取牛頓迭代的初始點使得f(x0)>0;不然,應取f(x0)<0!!!
牛頓迭代法的收斂階
對於牛頓迭代法,其迭代函數爲
因而
假定x是f(x)=0的單根,即f(x)=0,f′(x)≠0,則φ′(x)=0,根據[最優化方法:非線性方程的求極值方法]高階收斂定理2.6能夠判定,牛頓迭代法在根*x附近至少平方收斂.
Note: 收斂性質主要用在靠近x*時的收斂速度,其它地方通常由於梯度較大,降低得很快,主要速度在於快到達最優值時的收斂速度。
另外一種直觀解釋
[牛頓法]
牛頓迭代法的變形
牛頓下山法
在牛頓迭代法中,當選取初值有困難時,可改用以下迭代格式,以擴大初值的選取範圍,
其中λ稱爲下山因子,λ選取應知足單調性條件
這樣的算法稱下山法.將下山法和牛頓法結合起來使用的方法,稱爲牛頓下山法.
下山因子λ的選擇是逐步探索的過程.從λ=1開始反覆將λ減半進行試算,若是能定出λ使單調性條件成立則「下山成功」.與此相反,若是找不到使單調性條件成立的λ,則「下山失敗」.此時需另選初值x0重算.
弦截法
爲了不計算導數,在牛頓迭代格式(2.8)中,用差商
代替導數 f ′(xn),得
該迭代格式被稱爲弦截法.
從幾何上看,式(2.10)其實是由曲線上兩點(xn-1,f(xn-1))和(xn,f(xn))肯定割線,該割線與x軸交點的橫座標即爲xn+1,故弦截法又稱爲割線法.
弦截法和牛頓迭代法都是線性化方法,牛頓迭代法在計算xn+1時只用到前一步的值xn,而弦截法用到前面兩步的結果xn和xn-1,所以使用弦截法必須先給出兩個初值值x0,x1.
弦截法收斂速度稍慢於牛頓法
設f(x)在x*附近二階連續可微,且f(x*)=0,f′(x*)≠0,則存在δ>0,當x0,x1∈[x*-δ,x*+δ],由弦截法產生的序列{xn}收斂於x*,且收斂階至少爲1.618.
阻尼牛頓法
雖然Newton法具備二階局部收斂性,但它要求 F′(x∗) 非奇異。若是矩陣 F′(x∗) 奇異或病態,那麼 F′(x(k) 也可能奇異或病態,從而可能致使數值計算失敗或產生數值不穩定。這時可以使用阻尼牛頓法,即把牛頓法的迭代公式改爲,其中的參數 μk 稱爲阻尼因子, μkI 稱爲阻尼項。增長阻尼項的目的,是使線性方程的係數矩陣非奇異並良態。當 μk 選得很合適時,阻尼Newton法是線性收斂的。
另外一種等價解釋
阻尼牛頓法其實就是牛頓法增長了一個沿牛頓方向的一維搜索。
計算重根的牛頓迭代法
該迭代格式具備至少二階收斂性質.但在實際計算時,每每並不知道重數m,於是並不能直接使用式(2.11).爲此定義函數
該迭代格式至少是二階收斂.
擬牛頓法(Quasi-Newton Methods)
擬牛頓法是求解非線性優化問題最有效的方法之一,於20世紀50年代由美國Argonne國家實驗室的物理學家W.C.Davidon所提出來。Davidon設計的這種算法在當時看來是非線性優化領域最具創造性的發明之一。不久R. Fletcher和M. J. D. Powell證明了這種新的算法遠比其餘方法快速和可靠,使得非線性優化這門學科在一晚上之間日新月異。
擬牛頓法的本質思想是改善牛頓法每次須要求解複雜的Hessian矩陣的逆矩陣的缺陷,它使用正定矩陣來近似Hessian矩陣的逆,從而簡化了運算的複雜度(相似於弦截法,導數 F′(x) 須要近似);並且有時候目標函數的H矩陣沒法保證正定。擬牛頓法和最速降低法同樣只要求每一步迭代時知道目標函數的梯度。經過測量梯度的變化,構造一個目標函數的模型使之足以產生超線性收斂性。這類方法大大優於最速降低法,尤爲對於困難的問題。另外,由於擬牛頓法不須要二階導數的信息,因此有時比牛頓法更爲有效。現在,優化軟件中包含了大量的擬牛頓算法用來解決無約束,約束,和大規模的優化問題。
這樣的迭代與牛頓法相似,區別就在於用近似的Hesse矩陣Bk
擬牛頓條件
亦稱擬牛頓方程或者割線條件(割線方程),用於指出近似的矩陣應該知足的條件。
知足擬牛頓條件的幾種算法
[ BFGS 算法 ]
[ L-BFGS 算法]
[[原創] 擬牛頓法/Quasi-Newton,DFP算法/Davidon-Fletcher-Powell,及BFGS算法/Broyden-Fletcher-Goldfarb-Shanno]
Wolf條件:步長的一維非精確搜索
from: http://blog.csdn.net/pipisorry/article/details/24574293
ref: [非線性方程(組)的求解 ]
[中科大精品課程: http://www.bb.ustc.edu.cn/jpkc/xiaoji/szjsff/jsffkj/chapt4_1.htm]
[數值分析 電子科大 鍾爾傑]
[最優化算法]