【數學基礎篇】---詳解極限與微分學與Jensen 不等式

1、前述算法

數學基礎知識對機器學習還有深度學習的知識點理解尤其重要,本節主要講解極限等相關知識。機器學習

2、極限函數

一、例子學習

當 x 趨於 0 的時候,sin(x) 與 tan(x) 都趨於 0. 可是哪個趨於 0 的速度更快一些呢?優化

咱們考察這兩個函數的商的極限,spa

因此當 x → 0 的時候,sin(x) 與 tan(x) 是一樣級別的無窮小。3d

二、相關定理blog

若是三個函數知足 f(x) ≤ g(x) ≤ h(x), 並且他們都在 x0 處有極 限,那麼深度學習

重要極限:數學

3、微分學

微分學的核心思想: 逼近.

一、函數導數:

若是一個函數 f(x) 在 x0 附近有定義,並且存在極限。

那麼 f(x) 在 x0 處可導且導數 f ′ (x0) = L.

 無窮小量表述: 線性逼近。

Definition (函數的高階導數)

若是函數的導數函數仍然可導,那麼導數函數的導數是二階導 數,二階導數函數的導數是三階導數. 通常地記爲

或者進一步

導數是對函數進行線性逼近,高階導數是對導數函數的進一步逼 近,由於沒有更好的辦法,因此數學家選擇繼續使用線性逼近.

 Example (初等函數的導數)

二、微分學:多元函數

 

且 Lx, Ly 分別是 f 在 x, y 方向上的偏導數. 通常記爲

 

三、Definition (高階偏導數)

而且二階偏導數爲

四、Example (偏導數的例子)

五、求導法則

 6.總結

微分學的核心思想是逼近. 一階導數:線性逼近 二階導數:二次逼近 導數計算:求導法則

4、泰勒級數

一、泰勒/邁克勞林級數: 多項式逼近。

二、泰勒級數: 例子

三、應用

泰勒級數是一元微分逼近的頂峯,因此有關於一元微分逼近的問 題請盡情使用.

羅比塔法則

證實:

由於是在 x0 附近的極限問題,咱們使用泰勒級數來思考這個問題

四、小結 (泰勒級數)

泰勒級數本質是多項式逼近

特殊函數的泰勒級數能夠適當記一下

泰勒級數能夠應用於不少與逼近相關的問題。

5、牛頓法與梯度降低法

不少機器學習或者統計的算法最後都轉化成一個優化的問題. 也 就是求某一個損失函數的極小值的問題, 在本課範圍內咱們考慮 可微分的函數極小值問題.

一、優化問題

對於一個無窮可微的函數 f(x),如何尋找他的極小值點.

極值點條件。

全局極小值: 若是對於任何 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是全局極小值點.

局部極小值: 若是存在一個正數 δ 使得,對於任何知足 |x˜ − x∗| < δ 的 x˜, 都有 f(x∗) ≤ f(˜x),那麼 x∗ 就是局部極 小值點.(方圓 δ 內的極小值點)

不管是全局極小值仍是局部極小值必定知足一階導數/梯度 爲零,f ′ = 0 或者 ∇f = 0.

二、局部極值算法

這兩種方法都只能尋找局部極值 這兩種方法都要求必須給出一個初始點 x0

數學原理:牛頓法使用二階逼近(等價於使用二階泰勒級數),梯度降低法使用一階逼近

牛頓法對局部凸的函數找到極小值,對局部凹的函數找到極 大值,對局部不凸不凹的可能會找到鞍點.

梯度降低法通常不會找到最大值,可是一樣可能會找到鞍 點.

當初始值選取合理的狀況下,牛頓法比梯度降低法收斂速度 快.

牛頓法要求估計二階導數,計算難度更大.

三、牛頓法

首先在初始點 x0 處,寫出二階泰勒級數。

多變量函數二階逼近

四、梯度降低法:多變量函數一階逼近

若是函數 f(x) 是個多元函數,x 是一個向量. 在 x0 處對f作線性逼近。

五、小結 (牛頓法與梯度降低法)

牛頓法與梯度降低法本質上都是對目標函數進行局部逼近.

由於是局部逼近因此也只能尋找局部極值

牛頓法收斂步驟比較少,可是梯度降低法每一步計算更加簡單,牛頓法不只給出梯度的方向還給出具體應該走多少。梯度法的r只能本身定義。

不一樣的算法之間很難說哪個更好,選擇算法還要具體問題 具體分析(這也是數據科學家存在的意義之一)

梯度自己是向着最大方向的,加個負號纔是向着最小方向的。

6、凸函數與琴生不等式

一、Definition (凸函數)

把如上定義中的 ≤ 換成 <, 那麼這個函數就叫作嚴格凸函數。

二、(凸函數判斷準則)

若是 f 是多元函數,x 是個向量, 那麼 f 是凸函數的條件變爲Hf 是一個半正定矩陣。

三、凸函數重要性質: 琴生不等式)

相關文章
相關標籤/搜索