機率論與數理統計中基於有限樣本推斷整體分佈的方法,基於整體未知參數區間估計的假設檢驗方法之討論,以及從數理統計視角從新審視線性迴歸函數本質

1. 整體與樣本

0x1:數理統計中爲何要引入整體和個體這個概念

機率論與數理統計中,一個很重要的研究對象就是整體的機率分佈,理論上說,咱們但願得到被研究對象的整體樣本,基於這份整體樣本進一步研究其機率分佈,可是遺憾地是,幾乎在100%的狀況下,咱們都不可能得到真正的整體,咱們只能獲取有限的樣本量(例如天然生物裏的統計問題),有時候甚至仍是很是少的小樣本集(例如宇宙星體觀測結果),如何有效、準確、偏差可控地利用有限的樣本集,進行最大程度合理的統計推斷,既是一個理論研究課題,也是很是有現實意義的應用理論。html

所以機率論與數理統計科學家們提出了整體和個體這個概念,主要觀點以下:算法

  • 在大數定律的理論支撐下,只要咱們的我的樣本數足夠多,我的樣本的統計量會在趨近於1的機率下,趨近於整體樣本的統計量。這就是咱們在沒有完整整體樣本的狀況下,依然可以利用機率論與數理統計這個強大的武器,對未知的事物開展統計研究的理論依據。
  • 一樣在大數定律的理論支撐下,即便樣本數不夠多,基於有限的樣本數獲得的估計結果,和理論整體之間的偏差,也能夠能夠經過幾率分佈統計量的形式,定量地給出的,這給統計推斷的不肯定性決策提供了基礎。

0x2:整體與樣本

1. 整體的形式定義

在一個統計問題中,咱們把研究對象的全體稱爲整體,也即樣本空間全集,構成整體的每一個成員稱爲個體,也即樣本子集。數組

對於具體問題中,咱們將研究對象的某個數量指標值(例如身高)的全體稱爲整體,每個整體都是由一組數據組成的,所以能夠用一個機率分佈描述,因此說整體數量指標就是服從一個分佈的隨機變量。機器學習

咱們用大寫字母X表示整體,那麼整體X就是具備未知分佈函數F(x)的一個隨機變量。分佈式

2. 樣本的形式定義

在數理統計中,整體分佈永遠是未知的。因此咱們但願從客觀存在的整體中按必定的規則選取一些個體(即抽樣),經過對這些個體做觀察或測試來推斷關於整體分佈的某些統計量(例如整體X的均值、方差、中位數等),被抽取出的這部分個體就組成了整體的一個樣本。函數

這裏所謂的」必定規則「,是指保證整體中每個個體有同等的機會被抽到的規則。工具

在整體中抽取樣本的過程稱之爲」抽樣「,抽取規則則稱之爲」抽樣方案「。在大部分時候,咱們都採用簡單隨機抽樣,表示對整體的每個抽樣,整體中的全部個體都有相同的被選機率,用這種抽樣方案獲得的樣本稱爲簡單隨機樣本學習

因爲在觀測前,樣本觀測值是不肯定的,因此樣本是一組隨機變量(或隨機向量),爲了體現隨機性,用大寫字母(X1,X2,....,Xn)表示,其中n爲樣本的大小,稱之爲樣本容量測試

一旦給定的簡單隨機抽樣方案實施後,樣本就是一組數據,用小寫英文字母(x1,x2,...,xn)表示,也稱爲樣本觀測值spa

簡單隨機樣本具備下列兩個特性:

  • 1)相互獨立性:X1,X2,...,Xn相互獨立,樣本中每一個個體的取值不受到其餘個體取值的影響
  • 2)表明性:Xi 同整體分佈(Xi ~ f(xi;θ)),整體中的每個個體都有同等機會被選入樣本

3. 樣本的聯合分佈機率函數公式

咱們知道,簡單隨機樣本表示X1,X2,...,Xn是獨立同分布的隨機變量,且每個 Xi 的分佈都與整體X的分佈相同,所以咱們能夠根據機率論中多維隨機變量分佈的性質獲得樣本的聯合分佈以下:

1)離散型隨機變量

設整體X是一個離散型隨機變量,分佈律爲P(X=x;θ),樣本(X1,X2,....,Xn)的聯合分佈律爲:

2)連續型隨機變量

設整體X是一個連續型隨機變量,密度函數爲f(x;θ),樣本(X1,X2,....,Xn)的聯合密度函數爲:

樣本的聯合分佈累乘公式是一個很是基礎且重要的公式,是不少下游算法的公式基礎,它表達了一個最質樸的機率論思想,即:任何複雜的事物均可以分解爲多個複雜度更低的子事件,全部子事件同時發生等同於復瑣事物發生,而全部獨立同分布的子事物同時發生在機率論中又等價於全部子事物的機率逐個累乘。即P(AB) = P(A)*P(B)

樣本的聯合分佈機率函數公式,在模型參數估計、NLP語言模型建模等領域中都有普遍應用。

3)樣本聯合分佈函數舉例說明

設整體X~B(1,p),(X1,X2,...,Xn)爲取自該整體的一個樣本,求樣本(X1,X2,...,Xn)的聯合分佈律f(x1,x2,...,xn;p)

在機率分佈函數的討論中,咱們的討論對象每每是在某個肯定的機率函數前提下,某個點或某個區間的肯定性機率問題。而在樣本聯合分佈機率函數的討論中,咱們的討論對象是多個相同的機率分佈函數疊加在一塊兒,綜合而成的一個新的機率分佈函數。它們兩者之間有點像個體與羣體的關係。

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第6章 第一節 

 

2. 樣本隨機變量的統計量 

0x1:爲何要研究樣本的統計量

數理統計中最重要的部分就是研究樣本的機率分佈,也即抽樣分佈。

抽樣分佈也是一種隨機變量,所以天然也有對應的機率密度函數以及機率分佈函數。但其實對抽樣分佈的機率分佈函數的研究並非十分重要,或者說相比於抽樣分佈的統計量研究來講不是那麼重要。

咱們研究樣本的核心目的在於估計整體分佈的形式和參數,而抽樣分佈的統計量,是鏈接抽樣分佈和整體分佈之間的橋樑,基於抽樣樣本的統計推斷是基於抽樣統計量做出的,因此研究抽樣分佈的統計量是統計推斷中一個十分重要的環節。

0x2:樣本統計量 - 鏈接樣本和整體未知參數推斷之間的橋樑

數理統計的基本任務之一是利用樣本所提供的信息來對整體分佈中未知的量進行推斷,簡單來講,就是由樣本推斷整體。

可是,樣本經常表現爲一組數據,很難直接用來解決咱們所要研究的具體問題,人們經常把數據加工成若干個簡單明瞭的數字特徵,由數據加工後的數字特徵就是統計量。因此說統計量綜合了樣本的信息,是統計推斷的基礎。統計量的選擇和運用在統計推斷中佔核心地位。

1. 樣本統計量基本定義

設(X1,X2,...,Xn)爲取自整體的一個樣本,樣本(X1,X2,...,Xn)的函數爲g(X1,X2,...,Xn),若g中不直接包含整體分佈中的任何未知參數,則稱g(X1,X2,...,Xn)爲統計量。統計量本質上也是一種隨機變量。

在抽樣前,統計量是一個隨機變量,在抽樣後,獲得樣本(X1,X2,...,Xn)的一次觀測值(x1,x2,...,xn),則所得的g(x1,x2,...,xn)即爲統計量的一次觀測值。它是一個能夠由數據算得的實數。

統計量自己不包含整體分佈中的未知參數,咱們構造統計量的主要目的就是去估計整體分佈中的未知參數。

2. 一些經常使用的樣本統計量

1)樣本均值

設(X1,...,Xn)是一個樣本,稱:

爲樣本均值。 

2)樣本方差

稱:

爲樣本方差。

稱:

爲樣本標準差。

3)k階原點矩

通常地,對任意一個正整數k,稱:

爲樣本的k階原點矩。特別的,當k=1時,k階原點矩退化爲樣本均值。

4)k階中心矩

稱:

爲樣本的k階中心矩。

特別的,當k=2時,二階中心距M2爲:

二階中心矩M2和樣本方差的關係爲:

顯然,樣本方差比樣本的二階中心矩更大一些,有的教材上也稱樣本方差S爲樣本無偏估計,稱二階中心矩爲有偏估計。

5)詞序統計量

詞序統計量X(1),X(2),...,X(n)是X1,X2,...,Xn由小到大排序獲得的,加圓括號的下標表示排序。

設(X1,X2,...,Xn)是取自整體X的一個樣本,整體X的密度函數爲

樣本中取值最小的一個記爲,即,稱爲最小次序統計量

樣本中取值最大的一個記爲,即,稱爲最大次序統計量

稱爲第i次序統計量,i=1,2,...,n,知足:

的密度函數分別爲,由機率密度函數的定律可得:

次序統計量本質上是基於原始的機率分佈進行了一個函數映射後,獲得了一個新的機率分佈函數,那麼這個新的機率分佈函數的形式和原始機率分佈函數是什麼關係呢?咱們以指數分佈爲例,來具體討論下。

設(X1,X2,...,Xn)是取自整體X的一個樣本,整體X~E(λ),分別求次序統計量的分佈。

整體X~E(λ),因此密度函數爲:

分佈函數爲:

根據最小次序統計量的機率密度函數分佈式可得:

即:

根據最大次序統計量的機率密度函數分佈式可得:

3. 經常使用樣本統計量的性質

因爲統計量是樣本(X1,X2,...,Xn)的函數,所以統計量也是隨機變量,所以統計量也一樣具有隨機變量的一些性質。而考察隨機變量的性質,本質上就是用各類統計量來描述隨機變量,因此咱們一樣能夠用隨機變量的統計量來考察統計量自己,即統計量自己的統計量。

1)樣本均值的統計性質

這個公式要這麼理解,咱們將樣本均值做爲一個隨機變量,將每次抽樣看作一次觀測,則在屢次觀測下,樣本均值自己呈現出的均值和方差的統計規律。

樣本均值的均值仍是均值,樣本方差的均值,隨着樣本數n的增大而負向減少。

該性質代表:樣本集能夠必定程度上代替整體,實現整體參數估計的目的。由於估計樣本的均值就等於估計出了整體的均值,而隨着樣本數的增長,表明估計偏差的均值方差也是逐漸下降,通俗地說就是樣本越多,參數估計的就越準確

2)樣本方差和二階中心矩的統計性質

上式代表樣本方差的均值仍是方差,樣本二階原點矩的均值,隨着樣本數n的增長而緩慢增大,這也所謂有偏估計的由來。

該性質代表:樣本集並不改變整體的方差分佈,對原始的整體來講,樣本既不增長新的信息熵,也不減小信息熵

3)樣本均值和方差的依機率收斂性

由獨立同分布情形下的大數定律獲得:

因此有:

在大數定理下,無論是有偏估計仍是無偏估計,樣本均值和樣本方差最終都會收斂到整體均值和整體方差。

樣本均值和方差的機率收斂性,也是矩估計法和極大似然估計的理論依據,它從理論上證實了基於樣本進行數理統計的合法性和有效性。

4)二項分佈整體下的樣本統計量求解

這個小節咱們用一個具體的例子來闡述,如何對統計量的各類機率性質進行定量的分析和計算。

設(X1,X2,...,Xn)是取自整體X的一個樣本,當X~B(1,p)時,分別求下列幾個統計量:

由二項分佈的性質咱們知道:

因此有:

0x3:三大分佈 - 正態整體假定下,對樣本隨機變量進行特定統計量函數變換映射後,獲得的3種特定機率分佈

標題取得有一些繞,筆者這裏盡力分解解釋一下。

前面說到,樣本是從符合必定機率分佈的整體(任意機率分佈形式)中經過某種採樣方案,採樣抽取獲得的。因此咱們將樣本看作是一種隨機變量,並計算樣本隨機變量的統計量,例如前面介紹了經常使用的統計量(例如均值、方差、次序統計量)。但統計量本質也是一種函數變換(例如均值統計量就是一種固定形式的函數),統計量自己又是一種新的隨機變量,因此統計量自己也是有機率分佈函數形式的。 

在全部整體假設中,正態分佈是應用最普遍的一種機率分佈,根據中心極限定律,全部的機率分佈在大數n狀況下,都會趨近於正態分佈,因此咱們本章討論正態分佈整體下的抽樣分佈。

雖然正態整體假設下,抽樣隨機變量的統計量形式能夠由不少種,可是在學術研究和工業實踐中,使用最多的仍是3大分佈,本章咱們討論數理統計中用的比較多的3種分佈,包括x2分佈、t分佈、F分佈,它們在正態整體的統計推斷中起着重要做用。

筆者提醒:顯然,數理統計中並不僅有這3種機率分佈,理論上說,針對正態整體的抽樣,咱們能夠用任意的統計量g()函數來獲得新的隨機變量,在一些特定的工業場景中,也確實須要咱們創造新的統計量函數來應對特定的複雜場景

1. X2分佈

1)機率分佈數學公式

設X1,X2,...,Xn爲相互獨立的標準正態分佈隨機變量,都服從N(0,1),稱隨機變量:

所服從的分佈爲自由度爲n的 χ2 分佈,記做Y ~ χ2(n)。樣本數n越大,自由度越大

χ2(n)分佈的密度函數爲:

密度函數的圖像以下,它隨着自由度n的不一樣而有所改變。

2)機率分佈性質

χ2分佈具備以下性質:

  • 當Y ~ χ2(n)時,E(Y)=n,D(Y)=2n
  • χ2分佈的可加性:設X與Y相互獨立,且X~χ2(m),Y~χ2(n),那麼,X+Y ~ χ2(m+n) 

3)x2分佈機率分佈計算舉例

設(X1,X2,X3,X4,X5,X6)爲取自標準正態整體N(0,1)的一個樣本,分別求下列三個統計量的分佈:,並求a,b的值。

由樣本的定義可知,X1,X2,X3,X4,X5,X6相互獨立,且都服從N(0,1)分佈,因此根據χ2分佈的定義可知,即自由度爲2個χ2分佈。

同理,,即由一個樣本組成的機率分佈爲自由度爲1的χ2分佈。

,即,又,即

因此由χ2分佈的定義可知:

整理可得,a=1/2,b=1/3。

2. t分佈

1)機率分佈數學公式

設隨機變量X與Y相互獨立,且X~N(0,1),Y~χ2(n)。稱隨機變量:

服從自由度爲n的t分佈(學生氏分佈),記爲T~t(n)。

T的值域是(-∞,∞),t(n)分佈的機率密度函數爲:

t(n)分佈的密度函數圖像以下,關於直線t=0對稱:

當n充分大時,其圖形相似於標準正態分佈N(0,1)的密度函數圖像,即

t(n)分佈的p分位數記做ta(n),即當T~t(n)時,P(T ≤ ta(n)) = p。

在實際中,當n>45時,對於t分佈的分位數值,就用標準正態分佈的分位數近似,即

3. F分佈

1)機率分佈數學公式

設隨機變量X與Y相互獨立, 且X ~ χ2(m),Y ~ χ2(n),稱隨機變量:

所服從的分佈是自由度爲(m,n)的F分佈,記做F ~ F(m,n)。其中m稱爲第一自由度,n稱爲第二自由度

F(m,n)分佈的機率密度函數爲: 

F(m,n)分佈的機率密度函數圖像以下:

F(m,n)分佈的p分位數記做Fp(m,n),即當F ~ F (m,n)時,,對一些經常使用的p,能夠經過查表獲得,且同時具備以下性質:

2)F分佈機率分佈計算舉例

設隨機變量T~t(n),F=1/T2,求隨機變量F的分佈。

因爲T~t(n),設,其中隨機變量X與Y相互獨立,且X~N(0,1),Y~χ2(n)。

則有:

又由於X2~X(1),且X2與Y相互獨立,根據F分佈的公式定義,可得:

F ~ F(n,1),即第一自由度爲n,第二自由度爲1的F分佈。 

0x4:正態整體假定下的抽樣分佈的統計量性質

統計量是樣本(X1,...,Xn)的函數,它是一個隨機變量。統計量的分佈稱爲抽樣分佈。

設(X1,...,Xn )是取自正態整體N(μ,σ2)的一個樣本。下面來研究統計量的性質,咱們會看到,有不少分佈性質是須要藉助3大分佈來表達的,這也是3大分佈在數理統計中重要性的體現,同時在後文討論假設檢驗的時候,3大分佈還會頻繁出現。

定理1

  • ,或等價地

關於第二點這裏簡單討論下,從表面上看,是n個正態隨機變量的平方和,但實際上它們不是相互獨立的,它們之間有一個線性約束關係:

這代表,當這n個正態隨機變量中有n-1個取值給定時,剩下一個的取值就跟着惟一肯定了。因此其知足自由度爲n-1的X2分佈。

定理2

把結論左端改寫成:

上式右端分子服從N(0,1)

上式右端分母中的

且分子分母二者相互獨立,所以,由t分佈的定義便知結論成立。

定理3

在不少實際問題中,經常須要比較兩個相互獨立的正態整體的樣本均值差樣本方差比,因此針對兩個相互獨立的正態整體有如下定理。

設(X1,...,Xm )是取自正態整體N(μ1,σ12)的一個樣本,(Y1,...,Yn)是取自正態整體N(μ2,σ22)的一個樣本。 

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第6章 第二節 

 

3. 參數估計 - 機率分佈模型已知時模型參數估計

0x1:參數估計基本定義

在以前的章節中,咱們已經討論了整體和樣本的概念,而整體X的分佈永遠是未知的,一般根據實際狀況假定服從某種類型的分佈。例如,假定整體X服從正態分佈,那麼刻畫正態分佈的均值μ和方差σ2究竟取什麼值,是參數估計範疇內的知識。

在參數估計的知識推導中,須要用到以前討論過的樣本統計量的概念,樣本統計量和大數定律是參數估計的鏈接橋樑和理論支撐。

設整體X~f(x;θ),其中 f 的形式已知,θ是未知參數。例如,整體X~B(1,p),其中p未知,這個p即爲標記整體分佈的未知參數,簡稱整體參數

整體參數雖然是未知的,可是它可能取值的範圍倒是已知的。稱整體參數的取值範圍爲參數空間,記做

如何根據樣原本對未知參數進行估計,這就是數理統計中的參數估計問題。參數估計的形式有兩類:1)一類是點估計;2)一類是區間估計

0x2:參數點估計 - 精確的參數值估計

設整體X的分佈形式已知,但它的一個或多個參數未知,藉助於整體X的一個樣原本估計整體未知參數值的問題,稱爲參數的點估計問題

設(X1,X2,...,Xn)是取自整體X的一個樣本,點估計就是依據樣本估計未知參數爲某個值,這在數軸上表現爲一個點。

具體地說,假定要估計某個未知參數θ,求θ的點估計就是根據樣本(X1,X2,...,Xn)構造一個參數估計統計量,h(X1,...,Xn),在經過抽樣得到樣本觀測值(x1,...,xn)以後,便用h(x1,...,xn)的值來估計未知參數的值。

稱h(x1,...,xn)爲θ的估計量,估計量本質上也是一種隨機變量,記做,也簡記爲。根據隨機變量的定義,估計量是參數空間中一個肯定的值。

在一個具體問題中,要求未知參數的估計值必須先求出這個未知參數的估計量(即構造一個包含未知參數的機率分佈函數),這裏咱們介紹兩種經常使用的估計方法:1)矩法;2)極大似然法 

1. 矩估計

1)矩估計形式定義

矩估計的思想就是替換思想:用樣本原點矩替換整體原點矩

設整體X的k階原點矩:,樣本的k階原點矩爲:,若是未知參數,則θ的矩估計量爲。這種估計整體未知參數的方法稱爲矩估計。

2)矩估計性質

設一個整體X的均值E(X)=μ,方差D(X)=σ2都未知,(X1,X2,...,Xn)爲取自該整體的一個樣本,則是μ的矩估計量,Sn2是σ2的矩估計量,Sn是σ的估計量。

3)矩估計應用實例

設(X1,X2,...,Xn)是取自整體X的一個樣本,求X~B(1,p)和X~E(λ)時,整體未知參數的矩估計量。

X~B(1,p),首先,0-1分佈的指望E(X)=p,因此未知參數記爲整體一階原點矩,即p=E(X),應用矩估計的替換思想,用樣本的一階原點矩替代整體一階原點矩,可得p的矩估計量爲

X~E(λ),E(X)=1/λ,因此λ=1/E(X),因此λ的矩估計量爲

4)求解整體未知參數θ矩估計量通常步驟

  • 1)設k爲一正整數,一般取1或者2(即1階或者2階),計算整體的k階原點矩μk = E(Xk) = h(θ)
  • 2)解出θ = h-1(E(Xk)) = h-1(uk),將未知參數轉爲爲整體k階原點矩的形式
  • 3)用樣本的k階原點矩替換uk,獲得θ的矩估計,即將未知參數轉爲樣本k階原點矩的形式 

矩估計是一種經典的估計方法,它比較直觀且計算簡單,即便不知道整體分佈類型(矩估計法跳過了整體分佈形式這個環節,直接採起了替換思想),只要知道未知參數與整體各階原點矩的關係並運用替代法,就能獲得參數的矩估計量。

2. 極大似然估計

1)極大似然估計形式定義

設整體X有分佈律P(X=x;θ)或密度函數f(x;θ),其中θ爲一個未知參數或幾個未知參數組成的向量θ=(θ1,θ2,....,θk),已知 θ∈參數空間。(x1,x2,....,xn)爲取自整體X的一個樣本(X1,X2,...,Xn)的觀測值,將樣本的聯合分佈律或聯合機率密度函數當作θ的函數,用L(θ)表示,又稱爲θ的似然函數,則似然函數形式以下:

在似然函數的基礎上,稱知足下列關係式:

的解爲θ的極大似然估計,也即讓似然函數取得極大值時的特定參數值θ叫作:θ的極大似然估計量。顯然,極大似然估計量也是一個隨機變量。

筆者插入:極大似然估計是因果論的一種逆向應用,整體未知參數θ是因,樣本的觀測值是果,在全部備選θ中,使得結果發生機率最大的因就是極大似然估計的結果

2)極大似然估計量的求解方式

似然函數L(θ)的極大似然估計問題本質上是一個求極值問題,若是在θ參數較少時,能夠用求偏導的方式來求解,同時爲了計算方便,通常兩邊取對數,即對數極大似然估計,以下式:

來獲得θ的極大似然估計,這是由於L(θ)與lnL(θ)在同一處達到最大值。

當θ參數較多時,通常用矩陣代替偏導數進行計算,其本質是同樣的。

關於極大似然估計的延展討論,讀者朋友朋友能夠參閱另外一篇文章

3)極大似然估計應用實例

設(X1,...,Xn)是取自整體X的一個樣本,X~P(λ),其中λ未知,λ > 0。

包含整體未知參數λ的似然函數爲:

對似然函數兩邊取對數,並對未知參數λ求導數得:

對導數求極值得:

解得:

因而,λ的極大似然估計量爲

4)求解整體未知參數θ極大似然計量的通常步驟

  • 1)由整體分佈寫出樣本的聯合分佈律或者聯合密度函數
  • 2)把θ當作自變量,樣本聯合分佈律(或聯合密度函數)當作是θ的函數,記爲似然函數L(θ)
  • 3)求似然函數L(θ)的最大值點
  • 4)令L(θ)達到最大值時,θ的取值即爲θ的極大似然估計值。

由上面討論能夠看出,和矩估計不一樣的是,求解極大似然估計必須整體X的分佈類型已知,即必需要可以寫出肯定的包含整體未知參數θ的函數形式。極大似然估計的條件比矩估計的條件要苛刻,故極大似然估計通常優於矩估計。或者換句話來講,矩估計並不關心整體分佈的具體形式,直接應用了一個很是強的假設,即任何整體的k階矩均可以用樣本的k階矩代替

3. 點估計優良性評價標準

對於同一個參數,用不一樣的估計方法求出的估計量多是不一樣的,如何定型和定量地評估用哪一個估計量更好呢?這個小節會討論3種經常使用的評判標準。

1)無偏性 - 選矩估計仍是極大似然估計

是θ的一個估計量,θ取值的參數空間爲Θ,若對任意的θ∈Θ,都有:

則稱θ的無偏估計量,不然稱爲有偏估計量。

估計量的無偏性是指,由估計量獲得的估計值相對於未知參數真值來講,取某些樣本觀測值時偏大,取另外一些樣本觀測值時偏小。

反覆將這個估計量使用屢次,就平均來講其均值回到到真值自己,且其誤差爲0。

反之,若是估計量不具備無偏性,則不管使用多少次,其平均值也與真值有必定的距離,這個距離就是系統偏差了(即估計量選取自己有問題)。

下面經過一個例子來講明,矩估計和極大似然估計在對特定整體抽樣下,估計統計量的無偏性對比。

設(X1,X2,...,Xn)是取自整體X的一個樣本,整體服從均勻分佈,X~U(0,θ),其中θ>0未知,對比θ的估計量和極大似然估計量的無偏性。

首先,因爲E(X)=θ/2,則θ=2E(X),則θ的估計量爲,所以該矩估計量的指望爲:

所以θ的矩估計量是θ的無偏估計。

另外一方面,θ的極大似然估計函數形式(即最大次序統計量)爲:

所以該極大似然估計量的指望爲:

由上式能夠看出,θ的極大似然估計量X(n)不是θ的無偏估計,爲θ的有偏估計。

上面只是理論上的分析,可是當樣本量很大時,大數定律會讓問題簡單化,即:

所以:在大量樣本的狀況下,X(n)是θ的漸進無偏估計

同時還有一點須要注意的是,對最大次序統計量進行修正,,修正後的統計量知足指望迴歸真值,即修正後的統計量是無偏估計。

並非全部的統計量都是可疑修正的,修正後無偏估計在工程實踐中很是有用。

2)有效性 - 無偏估計中繼續擇優

一個未知參數的無偏估計能夠有不少(矩估計的各階矩,似然函數極值求導下的多個值),如何在無偏估計中再進行選擇呢?

因爲無偏估計的標準是平均誤差爲0,因此一個很天然的想法就是每一次估計值與真實值的誤差波動越小越少,誤差波動大小能夠用方差來衡量,所以咱們用無偏估計的方差大小做爲進一步衡量無偏估計優劣的標準,這就是有效性。

是θ的兩個無偏估計,若對任意的θ∈Θ,有下式成立:

則稱有效。

仍是繼續沿用上面的均勻分佈的例子,咱們已知是θ的無偏估計,且修正後的極大似然估計量也是θ的無偏估計。

且:

,又,因此:

根據函數性質,當n>=2時,,因此修正後的極大似然估計比矩估計更有效。

3)相合性 - 在大數狀況收斂於真值的能力

點估計是樣本的樣本,故點估計仍然是一個隨機變量,在樣本量必定的條件下,點估計不可能徹底等同於未知參數的真值,但若是隨着樣本量不斷增大,它可以不斷接近真值,控制在真值附近的強度(機率)愈來愈大,即無限趨近,那麼這就是一個好的估計,這一性質稱爲相合性。

是θ的一個估計量,若對任意ε,有以下公式成立:

則稱估計量具備相合性(一致性),即,這其實就是高數裏收斂的概念,在機率論中叫機率收斂一致性。

相合性被視爲對估計的一個很基本的要求,若是一個估計量,在樣本量不斷增大時,它不能把被估參數收斂到任意指定的精度內,那麼這個估計量就是不收斂的(發散的)。一般,不知足相合性的估計通常不予考慮。 

0x4:區間估計

1. 由一個例子從點估計推導演進到區間估計

上一章討論的參數點估計是基於樣本觀測值計算出一個肯定的值去估計整體未知參數。同時上一章也討論到了點估計量的3種評價標準,即無偏性,有效性,相合性。其實這背後已經暗含了一個重要信息,即參數點估計的結果從機率上是存在偏差的,雖然隨着樣本量的不斷擴大,這個偏差會無限趨近於零,但永遠不可能徹底等同於。換句話說,不管是矩估計仍是極大似然估計本質上都存在這偏差。

相比於給出精確的點估計值,學者們提出了另外一種參數估計方法,即區間估計,即給出一個區間,讓咱們能有更大地把握認爲真值被包含在這個區間內,這樣的估計就顯得更有實用價值,也更爲可信,由於咱們把可能出現的誤差也考慮在內了。

用一個具體例子來逐步引入後面對區間估計的形式化定義的討論:

考察某廠生產的水泥構件的抗壓強度(單位:N/cm2),若是在抽樣前已經從歷史上積累的資料中獲悉,該廠生產的水泥構件的抗壓強度 X ~ N(μ,400),其中μ未知 。

抽取了25件樣品進行測試,獲得25個數據x1,... ,x25,根據點估計定義,算得:

若是用點估計的觀點看,415應該就是是該廠生產的水泥構件的平均抗壓強度的估計值。確實在判別式模型中,這就是咱們所謂的獲得一個最優的模型參數估計。

可是因爲抽樣的隨機性,μ的真值和樣本的點估計量之間可能老是有誤差的,咱們但願獲得一個最大誤差d,保證點估計量和真值之間的誤差不超過這個最大誤差的機率達到某個置信機率,即

接着就出現2個互相制衡的約束條件:

  • 1)d究竟取多大才比較合理?  
    • d愈大可信程度也愈高,最極端的狀況,當d增大到整個參數空間時,可信度天然也增長到100%了。但區間過寬的估計是沒有實際意義的,畢竟你告訴你的業務方說,我有1%的機率認爲這筆交易是一個非法交易,你去阻斷它吧!可想而知後果
    • 反之,d愈小,區間估計就越精確,越收斂,極端狀況下,d爲零時即退化爲點估計。但相應的,可信程度卻下降了
  • 2)這樣給出的區間估計的可信程度如何?
    • 可信度即置信機率,在不一樣的最大誤差d下,可信度相應調整。顯然,下游業務方是但願這個可信度越高越好。

怎麼調和二者的矛盾呢?

在抽樣前,區間估計是一個隨機區間,反映區間估計可信程度的量是這個隨機區間覆蓋未知參數μ的機率分佈函數,所以上面2個約束條件能夠寫成機率形式:

該式本質上就是點估計量的機率分佈函數

上式中,取不一樣的d,能夠獲得對應的機率值。反過來也能夠說,取不一樣的機率值,就能夠獲得不一樣的d。

在數理統計中,咱們一般取95%這個機率值,咱們稱之爲置信機率(即可以接受估計結論的最低機率值),該機率值對應的d獲得一個區間【X-d,X+d】咱們稱之爲置信區間(即偏差的最小下界,即最少包含d的偏差,繼續增長置信機率,d也會相應繼續增大

回到上面這個具體的例子,因爲,其中,σ2 = 400 = 202,n = 25,所以,上述機率爲:

,其中

若是要求這個機率至少爲1-α(稱爲置信水平,或置信機率),那麼,由 2Φ(c) - 1 ≥ 1 - α 解得:

上面說到,咱們一般取95%做爲置信機率,因此當α=0.05,因此有:

因而,置信區間爲:

習慣上把這個區間估計經過分位數表達成:

上式清楚地代表了這個區間估計的可信程度(即它覆蓋未知參數μ的機率)爲1-α

在抽樣後,由樣本觀測值算得,所以,μ的區間估計的觀測值爲:

從樣本觀測值提供的信息,推斷出以95%的可信程度條件下,可以保證該廠生產的水泥構件的抗壓強度在407.16 ~ 422.84(N/cm2 )之間。

2. 區間估計形式化定義 

設(X1,...,Xn)是取自整體X的一個樣本。對於未知參數θ,給定α,0<α<1。若是存在統計量,使得:

那麼,稱θ的雙側1-a置信區間,稱1-a爲置信水平雙側置信下(上)界

上面定義表示雙側1-a置信區間覆蓋未知參數θ的機率至少有1-a。它的直觀意義是:對同一個未知參數θ反覆使用同一個置信區間時,儘管不能保證每一次都,可是,至少有100(1-a)%次使得「」成立。

和參數的點估計統計量同樣,參數的區間估計量也是一個隨機變量,因此稱置信區間的觀測值

3. 求置信區間的通常步驟

置信區間估計的基本思想是:較優的點估計應該屬於置信區間

設未知參數爲θ,置信水平爲1-α。

  • 步驟1:求出未知參數θ的較優的點估計,通常儘量使用θ的極大似然估計
  • 步驟2:以爲基礎,尋找一個隨機變量(其實就是包含未知參數的機率分佈),它必須包含、也只能包含這個未知參數θ。要求J的分位數能經過查表或計算獲得具體數值
  • 步驟3:記J的a/2分位數爲a,1-a/2的分位數爲b,因而

  •  步驟4:把不等式「a <= J <= b」做等價變形,獲得,這個即是一個雙側1-a置信區間

0x5:單正態整體下未知參數的置信區間

參數的區間估計是針對某個已知整體分佈的,例如已知整體分佈爲二項分佈,可是其參數未知,須要經過區間估計來獲得未知參數分佈的置信區間。

在實際應用環境中,正態整體下未知參數的置信區間是應用價值最大的一類置信區間問題,咱們這節來討論當整體分佈爲正態分佈時,其未知參數的區間估計問題。

1. 均值和方差的置信區間估計

設(X1,...,Xn)是取自整體X~N(μ,σ2)的一個樣本,置信水平爲1-a。

均值μ和方差σ2是否已知對置信區間的估計結果是有影響的,在實際狀況中,也存在不一樣的已知狀況,咱們分別討論這3種類型。

1)μ未知但σ2已知

當整體分佈爲正態分佈,方差已知,可是均值未知時。根據上一節討論肯定的置信區間估計的通常步驟,求未知參數μ的置信區間。

μ的極大似然估計是

設統計量J爲:

按整體分佈正態標準化定理可知,J~N(0,1),因爲,所以 

因而μ的雙側1-α置信區間爲:

從上式能夠獲得兩點信息:

  • 樣本量n越大,置信區間越窄,極端狀況下,n趨近於無窮,則置信區間收斂爲μ的極大似然估計是
  • 已知整體的方差越大,置信區間越寬,方差越小,置信區間越窄。

2)μ已知但σ2未知

如今要求未知參數σ2的置信區間。σ2的極大似然估計是:

設統計量J爲:

從前面三大分佈的討論中可知,J ~ χ2(n),所以

因而σ2的雙側1-α置信區間爲:

3)μ與σ2均未知

未知參數μ的極大似然估計是,令:

按照t分佈定理可得,J ~ t(n-1),因爲,所以

因而,μ的雙側1-α置信區間爲:

未知參數σ2的極大似然估計是:

設統計量J爲:

根據X2分佈定理可得,J ~ χ2(n-1),所以:

因而,σ2的雙側置信區間爲:

2. 單正態整體下未知參數置信區間估計案例 

電動機因爲連續工做時間過長而會燒壞,今隨機地從某種型號的電動機中選取9臺,並測試它們在燒壞前的連續工做時間(單位:h)。

由樣本數據(x1,... ,x9)算得:

假定該種型號的電動機燒壞前連續工做時間 X ~ N(μ,σ),取置信水平爲0.95。

試分別求出μ與σ的雙側置信區間。

1)問題分析

這是一個典型的已知整體機率分佈爲正態分佈,同時u和σ參數都未知的參數區間估計問題。

2)置信區間估計

對於具體問題來講,直接套用對應公式便可,u和σ都未知狀況下,u的置信區間上下界計算須要涉及到t分佈取值以及S的取值。

查表得t0.975(8)=2.306,同時

所以,μ的雙側95%置信區間的上、下限分別爲:

,即[37.66,41.74]

同理套用公式的得σ2的雙側95%置信區間爲:

Relevant Link: 

《機率論與數理統計》同濟大學數學系 第7章  

 

4. 假設檢驗

0x1:假設檢驗基本定義

假設檢驗是統計推斷的另外一種重要的形式,從數理統計的原理上來理解,筆者認爲假設檢驗和參數區間估計本質上是同樣的,都是在計算整體機率分佈密度函數的區間機率。

  • 參數區間估計是已知樣本反推未知參數在整體機率分佈密度函數上的值域區間,不一樣的值域區間範圍對應了不一樣的累計機率(即置信度),經過設定不一樣的置信度閾值,獲得對應的值域區間(即置信區間)
  • 假設檢驗是先假設整體分佈的某些未知參數已知(即假設整體已知),在已知整體下獲得抽樣機率分佈。不一樣的值域對應了不一樣的機率,反之,選定了一個機率值也就獲得一個對應的值域區間,假設檢驗就是討論樣本統計量和樣本隨機分佈下的閾值區間之間的關係的一套方法論

能夠這麼說,假設檢驗和參數估計的底層本質,都是整體和抽樣統計機率分佈函數的值域或者機率值計算。

在參數估計問題中,經常在抽樣前先對未知整體做出一些假定。例如,假定整體X服從正態分佈,假定某個正態整體的方差爲一個已知值,等等。

在數理統計中,把這類關於整體分佈的假定稱爲(統計)假設。假設做出了,還須要經過樣原本驗證抽樣前所做出的假設是否與實際相符合, 能夠用樣本所提供的信息來檢查,檢查的方法與過程稱爲(統計)檢驗

假設檢驗問題就是研究如何根據抽樣後得到的樣原本檢驗抽樣前所做出的假設的一套方法論

0x2:硬性假設檢驗 - 基於拒絕域的假設檢驗

從這小節開始,咱們先從硬性假設檢驗引入話題,逐步介紹假設檢驗的思想內涵。隱性假設檢驗是筆者在閱讀教材和文獻的時候本身根據理解取的名字。

硬性假設檢驗,是指非白即黑的對立假設,經過設定一個肯定的邊界,若是超出邊界就否認假設。

下面經過一個例子來詳細說明。

1. 題目場景分析

某飲料廠在自動流水線上灌裝飲料。在正常生產情形下,每瓶飲料的容量(單位:mL)X服從正態分佈N(500,102)。

通過一段時間以後,爲了檢查機器工做是否正常,抽取了9瓶樣品,測得它們的平均值爲490mL。

試問此時自動流水線的工做是否正常?即問是否能夠認爲平均每瓶飲料的容量還是500mL?假定標準差10mL不變。

2)創建統計假設

在這個問題中,整體X~N(μ,102),整體分佈是正態分佈是已知的,其中參數μ未知。

(x1,...,x9)是取自這個正態整體X的一組樣本觀測值,且已知樣本均值

接下來,咱們對實際的整體機率分佈參數創建一正一反兩個假設:

  • 「μ=500」:表示自動流水線的工做正常,每一個Xi~N(500,102)
  • 「μ≠500」:表示自動流水線的工做不正常,每一個Xi~N(μ,102),i=1,...,9,其中μ≠500

在數理統計中,把它們看做是兩個對立假設。

習慣上,稱:

  • 「μ=500」爲原假設(或零假設),記做H0
  • 「μ≠500」爲備擇假設(或對立假設),記做H1

在假設檢驗問題中,斷言「H0成立」稱爲接受H0(或不能拒絕H0)。斷言「H1成立」稱爲拒絕H0

3)計算拒絕域 - 統計檢驗 

統計假設創建完以後,爲了檢驗H0是否成立,須要基於樣本(X1,...,Xn)計算樣本的統計量。如今已知樣本均值

從表面上看,因爲,所以H0不成立。可是,這樣下結論是不能使人信服的。例如,若是,是否還能斷言H0不成立呢?畢竟它只差了一點點呀。

因此一個很天然的思考方式是,咱們須要創建一個表明可容忍度的統計標準,在抽樣前先肯定一個標準,即事先給定一個常數d,當抽樣後發現時,拒絕H0

至於如何給出這個常數d,這就是接下來統計檢驗要討論的問題。

當H0成立(即μ=500)時,整體X~N(500,102),基於該整體下的抽樣機率分佈爲:

因此假設不成立的機率爲:

若是要求這個機率不超過α,其中α表明顯著性水平,並記,那麼,由,解得:

通常取,因而,推得當知足:

時,拒絕H0。把上述標準等價地表達成,當:

時,拒絕H0。這裏的u1-α稱爲臨界值,它是最終判斷是拒絕H0仍是接受H0的標準。

從上式能夠看到,臨界值的是從抽樣統計分佈經過查表法獲得的,對於一樣的95%置信度a來講,不一樣的抽樣樣本獲得不一樣的抽樣機率分佈,最終獲得的臨界值也是不一樣的(本質就是經過幾率值反查值域值)。

回到題目,若是取α=0.05,由,及算得:

所以拒絕H0,便可以認爲此時自動流水線的工做不正常。

注意!在這種狀況下,做出錯誤檢驗判斷的機率爲0.05。這就是假設檢驗的核心思想,全部決策皆機率。

0x3:軟性假設檢驗 - p值和p值檢驗法 

上一章節,咱們討論了基於樣本隨機變量機率分佈,計算出拒絕域,根據樣本統計量是否超出拒絕域從而決定是否拒絕原假設,這是一種「Hard Hypothesis-Test」。

如今在此基礎上咱們提出一個更進一步的問題,樣本統計量超出拒絕域0.01和超出拒絕域100,意味着一樣的拒絕置信嗎?雖然不沒有超過拒絕域可是緊鄰着拒絕域邊緣的狀況,要拒絕仍是接受呢?

顯然,」Hard Hypothesis-Test「沒法完美地回答上述問題,這須要一個柔性的機率性分析的方法論,即告訴咱們能以多大的機率接受假設,能以多大的機率拒絕假設。

這就是咱們本節要討論的p值檢驗法,它本質上參數區間估計思想是一脈相承的。

1. p值檢驗法定義

假設檢驗的p值是在原假設H0成立的條件下,檢驗統計量Z出現給定觀測值或者比之更極端值的機率,直觀上用以描述抽樣結果與理論假設的吻合程度,所以也稱p值爲擬合優度。

例如,正態整體參數檢驗的狀況,檢驗統計量爲Z,即由樣本數據獲得檢驗統計量Z的觀測值爲,則p值爲:

2. p值檢驗法原則  

p值檢驗法的原則是當p值小到必定程度時拒絕H0

  • 若是p <= a,即檢驗統計量Z的觀測值在拒絕域內,則在顯著性水平a下拒絕原假設H0
  • 若是p > a,則在顯著性水平a下接受原假設H0

一般約定:

  • p <= 0.05:稱結果爲顯著,即顯著拒絕
  • p <= 0.01:稱結果爲高度顯著,即極大機率應該拒絕

3. p值檢驗法舉例

一美國汽車廠商聲稱他們生產的某節能型汽車耗油量低於29(單位:英里/加侖,mpg),另外一汽車廠商表示懷疑,他們抽取了一組同是這一型號的不一樣汽車的行駛記錄共16條(一組樣本),獲得平均耗油量觀測值爲28。

假設該節能型汽車的耗油量整體分佈爲X~N(μ,9),知道了整體分佈,天然也就獲得了抽樣分佈的機率分佈。

如今問在顯著性水平a=0.05假定下,可否接受耗油量低於29的假設?若顯著性水平爲a=0.1,則結論會有變化嗎?

在開始解題以前,咱們先來分析一下題目問題的本質,咱們如今有一個整體機率分佈的假設,同時咱們有抽樣樣本,即有抽樣分佈,同時這裏顯著性水平a,表明了機率分佈函數的特定值,不一樣的a對應了不一樣的機率值域區間。

解題:

創建假設,給出未知參數μ的估計,則經過正態分佈分位數查表得:

  • 當顯著性水平a=0.05時,0.0918 > 0.05,故不能拒絕H0,認爲耗油量不低於29mpg。
  • 當顯著性水平a=0.1時,0.0918 < 0.05,故拒絕H0,認爲耗油量低於29mpg。

這個例子告訴咱們,在一個較小的顯著性水平(a=0.05)下獲得不能拒絕原假設H0的結論,而在一個較大的顯著性水平(a=0.1)下,同一組樣本數據卻獲得了相反的結論。

緣由在於,當顯著性水平變大時,會致使拒絕域變大,本來落在接受域內的數據可能落到拒絕域內,於是更容易拒絕H0

在實際應用中,可能同一個問題,在不一樣的顯著性水平假定下獲得不一樣的結論。更經常使用的作法是,給出p值,由使用者本身決策以多大的顯著性水平來拒絕原假設。p值比拒絕域提供更多的信息,使用也更靈活。

0x4:單正態整體參數的假設檢驗

上個小節咱們舉的例子就已經涉及到單正態整體參數下的假設檢驗了,這個小節咱們來形式化討論一下在單正態整體下,假設檢驗的各類形式和定義。

設整體X~N(μ,σ),-∞<μ<∞,σ >0,(X1,...,Xn)是取自正態整體X的一個樣本,顯著性水平爲α。

1. μ未知但σ2已知

創建假設:

μ的極大似然估計是,設檢驗統計量:

  • 當H0成立時,的值應較小,等價地,| U | 的觀測值應較小;
  • 當H1成立時,的值較大,能夠認爲H0不成立,即拒絕H0

因而,拒絕域:

當μ=μ0 時,由顯著性水平a得下式:

解得臨界值,從而拒絕域公式等價爲:

即當樣本觀測值(x1,... ,xn)知足不等式:

時,拒絕H0。一般稱這個檢驗爲u檢驗

2. μ已知但σ2未知

若是要檢驗:

那麼,由σ2的極大似然估計構造檢驗統計量 

當,

  • 當H0成立時,即的值應該接近於1,等價的,的觀測值應接近於n
  • 反之,若是根據樣本觀測值(x1,...,xn)發現的值過大或太小地偏離於n,天然能夠認爲H0不成立,即拒絕H0

因而,拒絕域爲:

由於當時,

一般稱這個檢驗爲χ2檢驗

3. μ與σ2均未知

1)μ假設檢驗

若是要檢驗:

那麼,在μ的極大似然估計的基礎上,能夠構造檢驗統計量:

因而,拒絕域能夠表達成,當

時,拒絕H0。一般稱這個檢驗爲t檢驗

2)σ2假設檢驗

若是要檢驗:

那麼,在σ2的極大似然估計Sn2的基礎上,能夠構造檢驗統計量:

因而,拒絕域能夠表達成,當

時,拒絕H0。一般也稱這個檢驗爲χ2檢驗。 

0x5:參數估計和假設檢驗的關係

在學習了參數估計和假設檢驗以後,讀者朋友可能會有一個疑問,既然有樣本了,直接基於樣本進行參數估計不就好了嗎?爲何還須要假設檢驗,假設檢驗最後不仍是依靠樣原本估計未知參數嗎?

1. 聯繫

  • 都是根據樣本信息對整體的數量特徵進行推斷;
  • 都是以抽樣分佈爲理論依據,創建在機率論基礎之上的統計推斷;

2. 區別

  • 參數估計是以樣本資料估計整體參數的真值,而假設檢驗是以樣本資料對整體的先驗假設是否成立,以及成立的置信機率做出判斷;
  • 參數估計中的區間估計是以大機率爲標準,一般以較大的把握度1-a去保證整體參數的置信區間,而假設檢驗是以小几率原理爲標準,一般給定很小的顯著性水平a去檢驗樣本對整體參數的先驗假設是否成立;

3. 同一個問題的不一樣理論視角

在爲整體未知參數構造置信區間時,若是置信水平爲95%,則說明整體未知參數位於兩個極限之間的機率達到95%。

而顯著性水平反映了整體未知參數將位於某個極限外的機率,若是顯著性水平爲5%,則意味着拒絕域的機率爲5%。

假設檢驗和區間估計的關係以下。

假設整體X~N(μ,σ2),μ和σ2均未知,設(X1,X2,....,Xn)是取自整體X的一個樣本,給定置信水平爲1-a,顯著性水平爲a,則μ的雙側1-a置信區間爲:

也可表達成爲:

接着考慮以下關於均值μ的雙側檢驗問題:

可得相應的拒絕域爲:

對比置信區間和假設檢驗的拒絕域,咱們能夠發如今單正態整體中,假設σ2未知的狀況下,μ的雙側1-a置信區間記爲μ的雙側檢驗問題接受域,以下圖所示:

因而可知,假設檢驗和參數區間估計本質上說的是一件事,只是不一樣的理論視角。

Relevant Link: 

https://zhuanlan.zhihu.com/p/45898097 

 

5. 從擬合優度角度看一元線性迴歸擬合程度

迴歸分析是機器學習中很經常使用的統計方法,其本質上是利用參數估計與假設檢驗處理一類特定的數據,這類數據每每受到一個或若干個自變量的影響,本章僅討論一個自變量的情形,自變量是普通的變量,但因變量是一個隨機變量,即一元線性迴歸。

0x1:相關關係問題

在實際問題中,經常須要研究變量與變量之間的相互關係。變量之間的相互關係基本上能夠分爲:

  • 函數關係:肯定性關係
  • 相關關係:不肯定性關係

1. 函數關係

函數是研究變量之間相互關係的一個有力工具,例如,以速度v做勻速直線運動時,物體經歷的時間t與所通過的路程s之間具備函數關係s=vt。函數關係的基本特徵是,當自變量x的值肯定後,因變量y隨之肯定

所以,函數實質上是研究變量之間肯定性關係的數學工具。可是在實際的數據分析場景中,肯定性的關係並不老是存在,從筆者本身的經驗來看,幾乎99%的數據分析場景裏,變量之間的關係都不是肯定性的函數關係。關於該話題的討論,能夠參閱另外一篇文章

2. 相關關係

與此相對的,在客觀世界中變量之間還存在另外一種廣泛的關係,即不肯定性關係。

例如,咱們會發現人的身高與體重這兩個變量之間存在某種關係,例如高的人總體上都會重一些,可是這種關係不能用一個函數來表達,由於當人的身高肯定後,人的體重並不隨之肯定,它們之間存在一種不肯定性關係。

變量之間的不肯定性關係稱爲相關關係

假定要考察自變量x與因變量Y之間的相關關係,因爲自變量x給定以後,因變量Y並不隨之肯定,它是一個與x有關的隨機變量,它可能取其值域ΩY中的任意某個值,所以,直接研究x與Y之間的相關關係比較困難。所以必需要找一個可以表明Y的統計量,做爲」隨機變量表明「,來和x進行相關關係分析。

注意到均值E(Y)反映了隨機變量Y的平均取值,所以能夠將E(Y)統計量做爲Y的表明,研究x與E(Y)之間的關係。

隨機變量Y所包含的不肯定性經過指望E(Y)被消除,這樣,x與之間即可以獲得一種肯定性關係,E(Y)成爲x的某個函數。

下面經過研究μ(x)這個函數來達到探討x與Y之間相關關係的目的。

0x2:機率論與數理統計理論體系下的一元線性迴歸 - 線性模型的數理統計表達

物理定律告訴咱們,彈簧的伸長與拉力之間在理論上存在線性關係。從數據分析的角度,迴歸分析正是爲這條物理定律提供了統計依據。咱們這節圍繞該問題展開討論。

爲了研究彈簧懸掛重量x(單位:g)與長度Y(單位:cm)的關係,經過試驗獲得以下一組(6對)數據:

從散點圖看出,自變量x與因變量Y之間確定不存在函數關係,可是顯然存在相關關係。這6個點雖然不在同一條直線上,但大體在直線L的周圍。

前面說到,在研究x和Y的相關關係的時候,咱們通常會給Y選定一個」隨機變量表明「,如今直線L就是隨機變量Y的表明。

記直線L的線性方程爲:

y = β0 + β1x。因而,能夠把xi與yi之間的關係表示成:

這裏,εi表示試驗偏差,它反映了自變量x與因變量Y之間的不肯定性關係,即:

,其中,ε~N(0,σ2),即偏差符合正態分佈(這是高斯在研究正態分佈和隨機偏差時證實的理論)。

對這一組變量(x,Y)做了n次觀測,獲得樣本觀測值

站在抽樣前的立場看,這一組樣本能夠表示成:

其中,ε1,...,εn是獨立同分布的隨機變量,且都服從N(0,σ)。這個數學模型稱爲(一元)線性模型

在線性模型中,自變量x看做一個普通的變量,即它的取值x1,...,xn是能夠控制或精確測量的。而因變量Y是一個隨機變量(由於ε是一個隨機變量),即它的取值y1,...,yn在抽樣前是不肯定的,便是不可控制的。

在線性模型中,整體Y~N(β0 + β1x,σ2),其中是x的線性函數,這個函數稱爲迴歸函數,迴歸函數反映了自變量x與因變量Y之間的相關關係稱β1迴歸係數,稱β2爲迴歸偏置

這裏,β0,β1,σ2都是未知參數,-∞ < β0,β1 < ∞,σ2 > 0。

迴歸分析就是要根據樣本(x1,y1),...,(xn,yn)找到β0與β1適當的估計值,從而用經驗公式:

來近似刻畫自變量x與因變量Y之間的相關關係。這個經驗公式稱爲經驗迴歸函數

它表明的直線稱爲經驗迴歸直線。上圖中的直線L即爲經驗迴歸直線。

0x3:最小二乘法

1. 最小二乘形式化定義

如何根據(x1,y1),... ,(xn,yn)來推測經驗迴歸直線L呢?

從直觀上看,這條直線L應最接近已知的n個數據點,一般用

做爲任意一條直線y = β0 + β1x與這n個數據點偏離程度的定量指標。

即,但願選取適當的β0,β1使得Q(β0,β1)的值儘可能小。用這個方法獲得的β0,β1的估計稱爲最小二乘估計,這個估計方法稱爲最小二乘法

要求Q(β0,β1)的最小值,能夠先解下列方程組:

經整理後獲得:

稱這個方程組爲正則(或正規)方程組,由正則方程組解得:

其中,

因而,β0,β1的最小二乘估計量爲:

由β0,β1的最小二乘估計量,得經驗迴歸函數爲:

經驗迴歸直線是過n個數據點的幾何重點且斜率爲的一條直線

2. 最小二乘估計的性質

分別是β0,β1的無偏估計,且:

0x4:迴歸係數的顯著性檢驗

對於線性迴歸函數來講,迴歸係數β 1是一個重要的未知參數,對該參數須要進行假設檢驗:

| β| 的大小反映了自變量x對因變量Y的影響程度,通俗的話說就是,考量是否是在用線性迴歸函數來強擬合。

  • 若是經檢驗拒絕H0,那麼能夠認爲自變量x對因變量有顯著性影響,稱爲迴歸效果顯著;
  • 若是經檢驗不能拒絕H0,即迴歸效果不顯著,那麼緣由是多方面的。例如:
    • 可能原來假定E(Y)是x的線性函數β01x這個大前提就有問題,x和Y之間根本就沒有線性關係、
    • 也可能影響因變量Y的自變量不止x一個,甚至還可能x與Y之間不存在必須重視的相關關係,而只是弱線性關係、
    • 也多是由於採樣過程引入了大量的噪音,致使Y中的噪音方差過大

爲了給出迴歸係數的顯著性檢驗的拒絕域,先做一些準備工做,記:

,並稱SS爲總誤差平方和

反映了數據中因變量取值的離散程度。記:

,並稱SSR迴歸平方和

獲得:

所以,SSR反映了n個值相對於其平均的離散程度,它是因爲自變量x取不一樣的值x1,...,xn 而引發的,於是它在必定程度上反映了迴歸係數β1對數據中因變量取值產生的影響。

如今來討論σ2的點估計。σ2 = D(εi)反映了試驗偏差,在數據中,它經過來表現,其中

是按經驗迴歸函數算得自變量 x = xi 時因變量 y 的值,稱第 i 個殘差

稱:

殘差平方和

殘差平方和反映了n次試驗的累積偏差,它的值恰是Q(β0,β1)的最小值,由於

一般取σ2的估計爲 

當n較小時,一般取σ2的估計爲 

能夠證實是σ2的無偏估計,不具備無偏性,可是σ2的漸進無偏估計。

下面推導殘差平方和的計算公式,由:

獲得: 

由殘差平方和的計算公式獲得平方和分解公式:

有了上面的準備工做,咱們能夠開始討論對迴歸係數對顯著性檢驗了。

與SSE相互獨立,且,當β1=0時,

對迴歸係數做顯著性檢驗,有本質上相同的3種經常使用方法,接下來逐一討論:

1. t檢驗法  

設檢驗統計量:

當β1=0時,,且與SSE相互獨立,所以,

因而在顯著性水平a下,當:

時,拒絕H0

2. F檢驗法

設檢驗統計量:

當β1=0,而且與SSE相互獨立保證與SSE相互獨立,推得F~F(1,n-2)。

因而,在顯著性水平α下,當:

時,拒絕H0。由T2=F,能夠看出知F檢驗法本質上與t檢驗法是相同的。

3. 相關係數檢驗法 

設檢驗統計量: 

,稱R爲相關係數

相似於隨機變量的相關係數ρ(X,Y),R的取值r反映了自變量x與因變量Y之間的線性相關關係。

因而,在顯著性水平α下,當時,拒絕 H0

相關係數檢驗法是實際問題中被普遍應用的一種檢驗方法,由於它對x與Y之間線性相關關係給出一個數量表示。

能夠證實相關係數檢驗法也與t檢驗法本質上是相同的,由於它們之間存在下列關係:

4. 迴歸係數3種顯著性檢驗舉例

仍是沿用前面的彈簧的例子,爲了研究彈簧懸掛重量x(單位:g)與長度Y(單位:cm)的關係,經過試驗獲得以下一組(6對)數據:

列出計算表格(n=6) 

因而,利用獲得:

由上面計算計算表格和樣本均值計算結果獲得:

所以,

從而:

同時獲得:

將上面帶入t/F/相關係數檢驗公式,得:

3種檢驗的臨界值分別是:

經過查表獲得結論,檢驗結論都是拒絕H0,即迴歸效果顯著。這也和咱們的直觀判斷是一致的。

筆者思考:損失函數的損失值是從另外一個角度,度量了兩個隨機變量之間相關度的機率。損失最小就意味着參數估計的極大似然。能夠從信息論的統一視角來看它們兩者,本質上是一樣的概念

Relevant Link:  

《機率論與數理統計》同濟大學數學系 第8章  
相關文章
相關標籤/搜索