再談線性迴歸函數分析,從機率論與數理統計角度看線性迴歸參數估計

1. 隨機變量的數字特徵

0x1:爲何咱們須要統計隨機變量的數字特徵

隨機變量的分佈函數(或機率函數,或密度函數)已經很是全面了,精確地描述了這個隨機變量取值的統計規律性,那爲何咱們還須要研究隨機變量的數字特徵呢?這個小節咱們來討論一下這個話題。html

1. 實際問題背後機率分佈函數的複雜性

在不少實際問題中(特別是一些具體的非物理的問題域),從實際問題場景中採樣獲得的樣本集,通常時候都不會100%符合一個經典機率分佈(例如泊松分佈、高斯分佈等)。安全

例以下圖中,黑點表示咱們目前已知的樣本點分佈,藍色曲線表示某個非線性函數公式,恰好可以完美擬合這個樣本集:網絡

雖然上圖表面看好像已經擬合成功了,可是理論上來講,咱們是沒法寫出準確的機率分佈函數的,主要緣由有如下幾個方面: 函數

採樣不充分問題:一方面是因爲採樣不充分,根據隨機過程抽樣或者蒙特卡洛抽樣獲得的樣本點極可能只是真實機率機率分佈樣本空間的一個有限不均衡子集。採樣不充分是很是常見的,最極端的例子就是天文學和宇宙學,例如2019年很著名的黑洞照片,實際上是科學家們基於很是少的光子,經過數學建模的方式而「還原模擬」出來的。關於大數定理的其餘討論,能夠參閱另外一篇文章優化

  • 模型搜索空間大:另外一方面是因爲其樣本分佈的非線性,而非線性分佈的形式理論上是無窮的,這致使模型空間很是龐大。通常狀況下,咱們會遵循奧卡姆剃刀原理選擇最簡單同時最有效的模型來擬合,可是要明白的,奧卡姆梯度也不必定是上帝真理,也存在一些特殊的場景中,奧卡姆剃刀原理並不成立。這時咱們有兩種選擇:
    • 1)一是像上圖那樣用一個很是複雜的高階向量方程來描述樣本集,這項工做能夠經過深度神經網絡來獲得;
    • 2)二是反其道行之,使用一個相對簡單的機率分佈模型來進行擬合,可是這會帶來一個新的問題,即「近似假設檢驗置信區間有限」問題。
  • 近似假設檢驗置信區間有限:針對一個特定的樣本集,即便咱們找到了一個「近似擬合」的機率分佈函數(例如泊松分佈)對樣本點數據進行擬合,但在大多數實際狀況下,樣本點並非嚴絲合縫地完美擬合的,總會有一些樣本點「偏離」了分佈函數的值域區間。咱們通常用相關係數來評估咱們用來擬合的機率分佈和目標樣本之間的擬合程度。

2. 對宏觀數字特性的關注更甚於微觀準確機率分佈的關注  

除了精確描述抽象事物的機率分佈困難以外,在一些時候,咱們有時候可能也並不須要去求出隨機變量的準確機率分佈。相反,咱們關心只是隨機變量的取值在某些方面的統計數字特徵,而不是它的全貌。典型的例子如:spa

  • 天文學中的赫羅圖,用光度和溫度來描述全部的恆星。
  • 股民在炒股票時,更在乎的是大盤的平均走勢及波動狀況,具體的大盤指數服從何種分佈並不關心。
  • 顧客在購買商品時,更關注的是產品的平均壽命,並不須要瞭解產品壽命具體服從的分佈。
  • 評估不一樣的連續型隨機變量之間的關係時,須要藉助數字特徵進行歸納性的定量評估。

這類特徵每每經過若干個實數來反映,在機率論中稱它們爲隨機變量(或該隨機變量所服從的相應分佈)的數字特徵。.net

0x2:隨機變量數字特徵的分類

隨機變量的數字特徵有不少,這裏列舉一些理論分析和工程應用中經常使用的數字特徵:code

  • 數學指望
  • 方差、標準差
  • 協方差、相關係數
  • k階矩
  • 指望向量、協方差矩陣
  • 變異係數、分位數、中位數、衆數

咱們在這篇文章中選擇一些在數據分析和網絡安全數學建模經常使用的數字特徵進行討論,這也是筆者比較關注的領域,關於其餘部分的詳細討論,建議讀者朋友閱讀原書。htm

Relevant Link: blog

《機率論與數理統計》同濟大學數學系 第四章 

 

2. 隨機變量的指望和方差

0x1:數學指望

1. 數學指望的數學定義

1)離散型隨機變量數學指望定義 

設離散型隨機變量 X 的機率函數爲:

當級數收斂時,稱的值爲隨機變量 X 的數學指望(簡稱爲指望或均值),記做E(X),即:

因爲隨機變量的分佈刻畫了隨機變量取值的統計規律性,所以,當 X 服從某個分佈時,咱們也稱E(X)是這個分佈的指望。 

若是隨機變量知足等該模型,則指望公式就退化成了咱們熟悉的「求平均數」公式。

2)連續型隨機變量數學指望定義

設連續型隨機變量 X 的密度函數爲f(x),當積分收斂時,稱的值爲隨機變量 X 的數學指望(簡稱指望或均值),記做:

2. 數學指望的數學性質

數學指望的性質以下:

  • E(c) = c
  • E(kX +c) = kE(X) + c;
  • E(kX + lY) = k * E(X) + l * E(Y)
  • 當X與Y相互獨立時,E (XY) = E(X)E(Y)

3. 經常使用機率分佈的數學指望

1)二項分佈的數學指望

當X~B(n,p)時,X的機率函數爲

所以,根據指望的數學計算公式得:

2)泊松分佈的數學指望

當X~P(λ)時,X的機率函數爲

所以有:

3)均勻分佈的數學指望

當X~U(a,b)時,X的指望爲:

4)指數分佈的數學指望

當X~E(λ)時,X的指望爲:

5)正態分佈的數學指望

當X~N(μ,σ)時,X的指望爲:

4. 數學指望的意義

整體地歸納來講,指望E(X)的直觀含義是:指望反映了隨機變量 X 的平均取值,具體對於不一樣的機率分佈來講,平均取值的具體含義和代指會有所變化和不一樣 

1)二項分佈指望的意義

二項分佈的指望值E(X)=np,其意義表示隨機變量X的平均值,或平均水平

在具體問題中,例如金融組合分組,若是對投資結果進行數學建模,則指望表明投資結果的平均值。

2)泊松分佈指望的意義

泊松分佈的指望值是λ,其意義表示某個時間段內,隨機事件發生的平均次數

3)均勻分佈指望的意義

均勻分佈的指望值是樣本值域區間的中位數,中心點

4)指數分佈指望的意義

指數分佈的指望是1/λ,其意義表示某個時間段,隨機事件發生的平均時間間隔。它和泊松分佈正好互爲倒數。

5)隨機變量的物理意義 

數學指望刻畫隨機變量取值的平均數,有直觀含義,同時它也有物理含義。

若在數軸上放置一單位質量的細棒,在離散點 xi 處分佈着質點其質量爲 mi,則表示該細棒的重心座標。

若在數軸上放置一單位質量的細棒,它又質量密度函數f(x),則表示該細棒的重心座標。以下圖所示:

0x2:方差和標準差

1. 方差和標準差的數學定義

設X是一個隨機變量,稱

X的方差,稱X的標準差(或標準誤差)

在工程技術中普遍地使用標準差,由於它與隨機變量自己有相同的量綱(具備實際物理意義)。可是在理論推導中,使用方差較方便。

值得注意的是,方差本質上是隨機變量函數的指望,即隨機變量和均值離差的指望,因此有:

2. 方差的數學性質

  • D(c)=0,反之,若是某個隨機變量X的方差爲0,那麼P(X=c)=1,且其中c=E(X),即隨機變量退化爲一個固定的肯定實值
  • D(X ± Y) = D(X) + D(Y) ± 2E{[X - E(X)] [Y - E(Y)]}
  • 當X與Y相互獨立時,D(X ± Y) = D(X) + D(Y)

3. 經常使用機率分佈的方差

1)二項分佈的方差

當n=1時,畫出其函數圖:

能夠看到,當正反事件機率相同,即等概的時候,方差達到最大值。這也是機率分佈的最大熵原理。

隨着試驗次數n的增長,總體方差也線性增大。

可見對於伯努利實驗結果來講,實驗次數增長,指望和方差都是不收斂的,會無限增大。

2)泊松分佈的方差

當X ~ P(λ)時,E(X) = λ,,所以, 泊松分佈的方差爲

泊松分佈的指望和方差是相等的,都等於λ。

3)均勻分佈的方差

當X~R(a,b)時,E(X) = 1/2 * (a + b ),因此有

所以,均勻分佈的方差爲

4)指數分佈的方差

當X~E(λ)時,,所以,指數分佈的方差爲 

值得注意的是,方差和標準差並非惟一的用來度量的數據分佈波動程度的數字特徵,數學上極差也能夠發揮相似的做用,除此以外,組合型數字特徵也是數據分析中經常使用的統計量。

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第四章 第一節

 

3. 隨機變量的中心化和標準化

0x1:隨機變量中心化

1. 隨機變量中心化數學公式

已知X是任意的隨機變量,當E(X)和D(X)存在時,對隨機變量X做變換:

這個變換稱之爲隨機變量中心化

由指望與方差的性質推得:

即中心化後的隨機變量,指望爲0,方差不變。

2. 中心化的性質解釋

  • 指望歸零化:中心化隨機變量將其中心點(指望點)平移至原點,使其分佈不偏左也不偏右,其指望爲零
  • 分佈波動不變性:平移不影響波動的分佈程度,方差不變

0x2:隨機變量標準化

1. 隨機變量標準化數學公式

當D(X)>0時,對隨機變量X做變換:

這個變換稱之爲隨機變量標準化

由指望與方差的性質推得:

2. 標準化的性質解釋

  • 指望歸零化:標準化隨機變量將其中心點(指望點)平移至原點,使其分佈不偏左也不偏右,其指望爲零
  • 分佈波動歸一化:標準化將隨機變量的取值按照標準差等比壓縮,使其分佈不疏也不密,壓縮改變了分佈的波動程度,方差變爲1

須要注意的是,本章討論的隨機變量中心化和標準化,屬於特徵工程裏特徵歸一化的處理方法之一,除此以外還有其餘的特徵歸一化處理方法,關於這部分的討論,能夠參閱另外一篇文章

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第四章 第二節

  

4. 隨機變量的協方差和相關係數

單個隨機變量的數學特性當然很是有用,可是在理論分析和工程實踐中,遇到最多的仍是兩個及多個隨機變量之間的互相關係。這節咱們來討論兩個隨機變量之間的相互關係,多個隨機變量之間的關係是相似的,能夠以此類推。

0x1:協方差

1. 協方差的數學定義

設(X,Y)是一個隨機變量,稱

隨機變量X和Y的協方差

按照方差的定義,cov(X,X)= D(X)。協方差本質上是二維隨機變量函數g(X,Y) = [X - E(X)][Y - E(Y)]的指望,即兩個隨機變量方差之間的關係。

計算時經常使用下列公式:

2. 協方差的表明含義

協方差反映了X和Y之間的協同變化關係,具體爲:

設Z = [X - E(E)] [Y - E(Y)],cov(X,Y) = E(Z),則

  • 若cov(X,Y) > 0,事件 {Z > 0} 更有可能發生,即X,Y同時發生和同時不發生的可能性更大。說明X和Y均有同時大於或同時小於各自平均值的趨勢;
  • 若cov(X,Y) < 0,事件 {Z < 0} 更有可能發生,即X,Y相反發生的可能性更大。說明X和Y其中有一個有大於其平均值的趨勢另外一個有小於其平均值的趨勢;

特別的,當Y= X時,cov(X,Y) = cov(X,X) = D(X),協方差退化爲方差。

利用協方差,能夠把兩個隨機變量方差公式表達成:

3. 協方差的性質

  • cov(X,Y) = cov(Y,X)
  • cov(X,c) = 0
  • cov(kX,lY) = k * l * cov(X,Y) 

0x2:相關係數

協方差考察了隨機變量之間協同變化的關係,可是在實際使用中存在一個問題,即量綱不一致問題。例如,若是要討論新生嬰兒的身高X和體重Y的協方差,若採用兩個不一樣的單位,「米和千克」或者「釐米和克」,後者協方差可能會是前者的數千倍!因爲量綱的不一樣致使X與Y的協方差先後不一樣。

實際上,回顧文章前面中心化和標準化的知識可知,協方差其實是把X,Y分別中心化後的,它的值受X與Y量綱大小的影響。爲了解決量綱不一致的問題,就有了相關係數。

1. 相關係數的數學定義

設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,稱爲X與Y的相關係數,記做ρ(X,Y),即

這就是隨機變量X和Y的相關係數,又稱爲標準化協方差

利用相關係數,能夠把方差的公式表達成

2. 由相關係數導出的等價命題/定理

設(X,Y)是一個二維隨機變量,當ρXY = 0時,下列命題等價:

  • X和Y(線性)無關或(線性)不相關
  • cov(X,Y) = 0
  • E(XY) = E(X) E(Y)
  • 隨機變量X和隨機變量Y相互獨立
  • D(X + Y) = D(X) + D(Y)
  • D(X - Y) = D(X) + D(Y)

3. 相關係數的性質

設(X,Y)是一個二維隨機變量,當D(X) > 0,D(Y) > 0時,相關係數有以下性質:

  • ρ(X,Y) = ρ(Y,X)
  • | ρ(X,Y) | ≤ 1
  • | ρ(X,Y) | = 1 的充分必要條件是:存在不爲零的常數k與常數c,使得P(Y = kX + c) = 1,其中
  • 當ρ(X,Y) = ±1 時,X與Y之間以機率1成立徹底線性相關。當 ρ(X,Y)=1時,稱X與Y徹底正線性相關;當ρ(X,Y)=-1時,稱X與Y徹底負線性相關
  • 當0 < ρ(X,Y) < 1時,稱X與Y正線性相關;當-1 < ρ(X,Y) < 0時,稱X與Y負線性相關
  • X與Y之間線性聯繫的程度隨着 | ρ(X,Y) | 的減少而減弱。當ρ(X,Y)=0時,ρXY=0,稱X與Y不相關,則有cov(X,Y)=0,或E(XY)=E(X)E(Y)

0x3:隨機變量之間線性相關和相互獨立之間的包含關係

隨機變量相互獨立和線性無關都刻畫了隨機變量之間的關係,相互獨立時必定線性無關,但反之不必定成立,以下圖:

舉例說明,設隨機變量Z服從區間[0,2π]上的均勻分佈,令 X = sinZ,Y = cosZ

根據邊緣機率分佈公式得:

根據方差公式有:

,同理有

根據指望公式有:

根據協方差公式有:

因此隨機變量X和Y不相關。

可是由於,因此f(X,Y) != f(X) * f(Y),因此X與Y不相互獨立。

可見,相互獨立是一種比不相關更強的關係。能夠這樣說:

  • 相互獨立是從總體也即分佈的角度刻畫隨機變量之間的關係,它意味着兩個隨機變量無任何關係
  • 不相關僅僅是從數字特徵角度刻畫隨機變量之間的關係,它意味着兩個隨機變量之間無線性關係,但不意味着兩個隨機變量之間無其餘關係(多是非線性關係),所以,不相關不必定相互獨立

0x4:協方差矩陣

對於二維隨機變量(X,Y),稱向量

爲(X,Y)的指望向量(或均值向量),稱矩陣 

爲(X,Y)的協方差矩陣,因爲cov(X,X) = D(X),所以,n維隨機向量(X1,... ,Xn)的協方差矩陣爲 

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第四章 第四節

  

5. 從相關係數的角度來看線性迴歸參數估計結果

0x1:一個簡單的一元線性迴歸案例

有一個公司,每個月的廣告費用和銷售額,以下表所示:

咱們把廣告費和銷售額畫在二維座標內,就可以獲得一個散點圖,利用一元線性迴歸作出一條擬合直線,y = ax + b。

使用最小二乘法進行參數估計,就能夠求出a和b了。

最終的迴歸擬合直線爲:Y=1.98X+2.25。

0x2:從隨機變量機率分佈的角度來看樣本數據分佈和迴歸模型的參數分佈

從機率分佈的角度來看線性迴歸模型的參數估計過程。咱們設樣本點對應的隨機變量爲X,參數對應的隨機變量爲Y。

從上圖能夠獲得:ρ(X,Y) != 1

因此X和Y不知足徹底線性相關的關係,也即:不存在不爲零的常數k與常數c,使得P(Y = kX + c) = 1

從線性方程組求解的角度來看,直接基於原始輸入樣本點求解線性方程組就是無解的。

因此,線性方程組引入了」顯著性檢驗「這個度量方法,用來評估參數估計的結果和目標樣本點的擬合程度,經常使用的顯著性檢驗方法包括:

  • R2:方程的肯定性係數(coefficient of determination)
  • F檢驗值
  • T檢驗值 

這裏咱們以R2爲例進行說明,在R2中,量化度量擬合程度的公式以下

R2顯著性由兩個不一樣的偏差損失,SSR和SSE比例相除獲得。

SSE和SSR共同組成了SST(總殘差損失),咱們分別介紹

SST(總誤差)= SSR(迴歸線能夠解釋的誤差)+ SSE(迴歸線不能解釋的誤差)

迴歸平方和( SSR,Sum of Squares forRegression) :因變量的迴歸值(直線上的Y值)與其均值(給定點的Y值平均)的差的平方和,它是因爲自變量x的變化引發的y的變化,反映了y的總誤差中因爲x與y之間的線性關係引發的y的變化部分,是能夠由迴歸直線來解釋的

殘差平方和(SSE,Sum of Squaresfor Error):因變量的各實際觀測值(給定點的Y值)與迴歸值(迴歸直線上的Y值)的差的平方和,它是除了x對y的線性影響以外的其餘因素對y變化的做用,是不能由迴歸直線來解釋的

R^2的取值在[0,1]之間,越接近1說明擬合程度越好。

如今回到隨機變量協方差的視角,重寫上述SSR和SSE公式,會發現:

  • SSR:本質上就是E(Y - E(Y))
  • SSE:本質上就是E(E - E(E))
  • R2:本質上就是cov(X,Y)

因此總R2顯著性公式本質上度量了參數隨機變量X和樣本隨機變量Y之間的協同關係,即協方差。協方差越接近1,擬合程度就越高。

0x3:相關係數和迴歸係數的通常性關係

上個小節咱們用了一個具體的例子來講明瞭線性迴歸中參數估計擬合程度和隨機變量中相關係數的等價關係。這個小節咱們將這個結果泛化爲通常性的結論。

1. 相關係數是標準化的迴歸係數

迴歸係數b是有單位的,但若對b做消去單位的標準化處理,即對b中x,y的離均差以各自的標準差 s_{x} 和 s_{y}爲單位: 

故有時將相關係數稱爲標準迴歸係數

2. 線性迴歸方程也可用相關係數等價表示

\hat{y}=\bar{y}+b(x-\bar{x})

可改寫爲:

\hat{y}=\bar{y}+r\cdot \frac{s_{y}}{s_{x}}(x-\bar{x})

0x4:相關分析與迴歸分析的關係

筆者這裏用隨機變量相關性分析的視角來討論迴歸分析,並非說相關分析和迴歸分析是同一個東西。

相關分析與迴歸分析在實際應用中有密切關係。然而它們存在着不一樣:

  • 在迴歸分析中,所關心的是一個隨機變量Y對另外一個(或一組)隨機變量X的依賴關係的函數形式,肯定因果關係,並用數學模型來表現其具體關係
  • 相關分析中 ,所討論的變量的地位同樣,不區分自變量和因變量,分析側重於隨機變量之間的種種相關特徵

例如,以X、Y分別記小學生的數學與語文成績,感興趣的是兩者的關係如何,而不在於由X去預測Y

Relevant Link: 

https://www.cnblogs.com/LittleHann/p/7354706.html#_label1 
https://zhuanlan.zhihu.com/p/49221154
https://blog.csdn.net/mengjizhiyou/article/details/82177830 
https://blog.csdn.net/xiaojianpitt/article/details/5453023
http://soundrain.net/2017/05/25/20170525-%E4%BB%8E%E7%BB%9F%E8%AE%A1%E5%AD%A6%E8%A7%92%E5%BA%A6%E7%9C%8B%E7%BA%BF%E6%80%A7%E5%9B%9E%E5%BD%92%E4%B8%AD%E7%9A%84%E5%9B%9E%E5%BD%92%E7%B3%BB%E6%95%B0/ 

 

6. 迴歸模型參數最優化和參數機率分佈估計的區別與聯繫

迴歸模型的參數最優化的目標是獲得一個最優的判別式模型,而模型參數機率密度估計的目標是獲得一個生成式機率模型。

簡單來講,他們之間的聯繫是:經過損失函數最優化技巧獲得的模型參數,等價於求E(X - Yobj),即參數隨機變量和樣本點的差值函數的指望均值。

關於這方面的討論,能夠參閱另外一篇文章。 

 

7. 從信息論Kullback-Leibler散度的角度來看線性迴歸參數估計結果

若是將回歸模型的參數空間看做是是一個機率分佈的話,損失函數求解的目標就是尋找和樣本隨機變量相關度最高的參數隨機變量分佈。除了相關性度量以外,還能夠從信息論KL散度角度來度量參數估計結果和樣本分佈的擬合程度。

這個話題的一些討論能夠參閱這篇文章。關於信息論和熵原理的更多討論,筆者會在以後的迭代中繼續完善這篇文章。

相關文章
相關標籤/搜索