斯坦福公開課4:牛頓方法

 北京理工大學計算機專業2016級碩士在讀,方向:Machine Learning,NLP,DM

本講大綱:

1.牛頓方法(Newton’s method) 
2.指數族(Exponential family) 
3.廣義線性模型(Generalized linear models)html


牛頓法

假設有函數:這裏寫圖片描述,咱們但願找到知足這裏寫圖片描述這裏寫圖片描述值. 這裏這裏寫圖片描述是實數. 
牛頓方法執行下面的更新: 具體原理可參考文章《Jacobian矩陣和Hessian矩陣》
這裏寫圖片描述 
下圖爲執行牛頓方法的過程: 
這裏寫圖片描述 
簡單的來講就是經過求當前點的導數獲得下一個點.用到的性質是導數值等於該點切線和橫軸夾角的正切值.算法

這裏寫圖片描述,咱們能夠用一樣的算法去最大化這裏寫圖片描述 
這裏寫圖片描述函數

 

牛頓方法的通常化: 
若是這裏寫圖片描述是一個向量,那麼: 
這裏寫圖片描述 
其中,這裏寫圖片描述這裏寫圖片描述這裏寫圖片描述的偏導數; 
H稱爲海森矩陣(Hessian matrix),是一個n*n的矩陣,n是特徵量的個數,而且這裏寫圖片描述學習

牛頓方法的收斂速度比批處理梯度降低快不少,不多次的迭代就可以很是接近最小值了;可是當n很大時,每次迭代求海森矩陣和逆代價是很大的。spa


 

 

指數族

對P(y| x;θ)建模:

 

 

  1. y∈R:高斯分佈---> 最小二乘法
  2. y∈{0,1}:伯努利分佈---> Logistic迴歸 
 
     Binomial(  φ ) = P( y=1 |  φ  ) =  φ  一類伯努利分佈
     N(   μ,σ 2  )  一類高斯分佈
     以上分佈都是指數分佈族的特例
指數族形式: 
這裏寫圖片描述
η 被稱爲分佈的 天然參數 (natural parameter)
T(y)是 充分統計量 (sufficient statistic)(對於咱們考慮的分佈來講,一般T(y)=y);
a(η)是日誌分配函數(log partition function),e -a(η) 是一個規範化常數,使得分佈的和爲1. 
給定函數T,a,b,經過改變參數η獲得不一樣的分佈。
 
下面展現伯努利(Bernoulli)高斯分佈(Gaussian distribution)都是指數分佈族的特例:
  • 伯努利分佈能夠寫成: 
這裏寫圖片描述 
所以,令這裏寫圖片描述(有趣地發現其反函數爲這裏寫圖片描述這裏寫圖片描述),而且, 
這裏寫圖片描述 
  • 高斯分佈: 
回憶咱們對線性迴歸求導時,方差對咱們最終結果並無任何影響.爲了使問題簡化,令這裏寫圖片描述因而有, 
這裏寫圖片描述 
得: 
這裏寫圖片描述
指數分佈族還包括不少其餘的分佈: 
多項式分佈(multinomial)  : 對k個結果的事件建模
泊松分佈(poisson):用於計數過程建模 
伽馬分佈(gamma),指數分佈(exponential):用於對連續非負的隨機變量進行建模 
β分佈Dirichlet分佈:對小數建模
Wishart分佈:協方差矩陣的分佈
 
 

廣義線性模型 (GLM)

爲了導出GLM,做三個假設: 
(1) 這裏寫圖片描述  
(2)給定x,咱們的目標是預測T(y)的預期值. 在大部分例子中,咱們有T(y)=y,所以意味着咱們經過學習獲得的假設知足 這裏寫圖片描述 (這個假設對logistic迴歸和線性迴歸都成立) 
(3)天然參數和輸入變量是線性相關的,也就是說 這裏寫圖片描述 (天然參數大可能是實數,若是天然參數是向量,則 這裏寫圖片描述
3.1普通的最小二乘法  
爲了說明普通的最小二乘法是GLM的特例,設定目標變量y(在GLM術語中叫響應變量-response variable)是連續的,而且假設服從高斯分佈 這裏寫圖片描述 ,高斯分佈寫成指數族的形式,有 這裏寫圖片描述 獲得: 
這裏寫圖片描述
3.2 logistic迴歸  
考慮logistic,咱們感興趣的是二元分類,也就是說 這裏寫圖片描述 很容易想到指數分佈族的伯努利分佈,有 這裏寫圖片描述 ,同理獲得: 
這裏寫圖片描述
正則響應函數(canonical response function): 這裏寫圖片描述  
正則鏈接函數(canonical link function): 這裏寫圖片描述
 

3.3 softmax 迴歸 日誌

當分類問題的y取值不止兩個時,咱們須要採用 多項式分佈(multinomial distribution) .
在推導多項式分佈的GLM以前,先把多項式分佈表達成指數族.爲了參數化多項式分佈的k各可能結果,有人可能會用k個參數來講明每一種狀況的可能性,可是這些參數是冗餘的,而且並非獨立的(因爲知道任何其中的k-1個,剩下的一個就能夠求出,由於知足
這裏寫圖片描述 ). 所以咱們用k-1個參數 這裏寫圖片描述 對多項分佈進行參數化,
這裏寫圖片描述
這裏T(y) <> y。
 
定義 這裏寫圖片描述 ,以下, 
這裏寫圖片描述
介紹一個頗有用的記號(指示函數), 這裏寫圖片描述 ,例如1{2=3}=0,1{3=5-2}=1. 
所以T(y)和y的關係爲 這裏寫圖片描述

而且有這裏寫圖片描述,所以: 
這裏寫圖片描述orm

連接函數爲,這裏寫圖片描述,爲了方便,定義這裏寫圖片描述.htm

可得: 
這裏寫圖片描述 
所以這裏寫圖片描述,反代回去獲得響應函數: 
這裏寫圖片描述blog

從η到這裏寫圖片描述的映射叫作softmax函數.事件

根據假設3,這裏寫圖片描述獲得: 
這裏寫圖片描述

這個應用於分類問題(當這裏寫圖片描述),叫作softmax迴歸(softmax regression).是logistic迴歸的推廣.

這裏寫圖片描述

與最小二乘法和logistic迴歸相似, 
這裏寫圖片描述

再經過梯度上升或者牛頓方法求出θ.


補充: 機率分佈函數、機率密度函數、機率質量函數

  • 機率分佈函數. Accumulative Distribution Function. ADF(X能夠是連續的, 也能夠是離散的隨機變量.

 

  • 機率密度函數. Probability Density Function. PDF.(爲連續隨機變量定義的)

 

它自己不是一個機率值,能夠大於1,在x積分後纔是機率值。

 

  • 機率質量函數. Probability Mass Function. PMF. (爲離散型隨機變量定義的)

 

Tips:
一、它自己就是一個機率值. 對於連續型隨機變量, 它任意一個肯定x 值的機率值都是0, 即:
二、而對離散型隨機變量, 它在任意一個x值 的機率值就是它的PMF.

 

補充:統計中的分佈

1. 伯努利分佈(兩點分佈、0-1 分佈
  • 描述的是一種隨機試驗(結果只有成功或失敗,可能性是固定的p)發生的機率,屬於離散型機率分佈
  • 若是試驗E是一個伯努利試驗,將E獨立重複地進行n次,則稱這一串重複的獨立試驗爲n重伯努利試驗
  • 進行一次伯努利試驗,成功(X=1)機率爲p(0<=p<=1),失敗(X=0)機率爲1-p,則稱隨機變量X服從伯努利分佈。
  • 伯努利試驗是隻有兩種可能結果的單次隨機試驗,即對於一個隨機變量X而言:
  • 機率質量函數     其中 k=0,1
  • 指望:
  • 方差:operatorname{var}X = sum_{i=0}^1(x_i-E[X])^2f_X(x)= (0-p)^2(1-p) + (1-p)^2p = p(1-p) = pq
2. 二項分佈(n 重伯努利分佈)
  • 二項分佈(Binomial distribution)是n重伯努利試驗成功次數的離散型機率分佈
  • 若是試驗E是一個n重伯努利試驗,每次伯努利試驗的成功機率爲p,X表明成功的次數,則X的機率分佈是二項分佈,記爲X~B(n,p),其機率質量函數

 

 

 

  • 二項分佈名稱的由來,是因爲其機率質量函數中使用了二項係數,該係數是二項式定理中的係數,二項式定理由牛頓提出:

 

  • 二項分佈的典型例子是扔硬幣,硬幣正面朝上機率爲p, 重複扔n次硬幣,k次爲正面的機率即爲一個二項分佈機率。

 

 

3.高斯分佈(正態分佈)

 

  • 若隨機變量X服從一個數學指望μ、標準方差σ2的高斯分佈,記爲:

 

X∼N(μ,σ2),

 

  • 其機率密度函數

 

f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}}
 
4.多項分佈

  • 多項式分佈(Multinomial Distribution)是二項式分佈的推廣。二項式作n次伯努利實驗,規定了每次試驗的結果只有兩個,若是如今仍是作n次試驗,只不過每次試驗的結果能夠有多m個,且m個結果發生的機率互斥且和爲1,則發生其中一個結果X次的機率就是多項式分佈。
  • 扔骰子是典型的多項式分佈。扔骰子,不一樣於扔硬幣,骰子有6個面對應6個不一樣的點數,這樣單次每一個點數朝上的機率都是1/6(對應p1~p6,它們的值不必定都是1/6,只要和爲1且互斥便可,好比一個形狀不規則的骰子),重複扔n次,若是問有k次都是點數6朝上的機率就是
  • 多項式分佈通常的機率質量函數爲:

相關文章
相關標籤/搜索