【數學建模】day07-數理統計II

方差分析和迴歸分析。算法

 

用數理統計分析試驗結果、鑑別各因素對結果影響程度的方法稱爲方差分析(Analysis Of Variance),記做 ANOVA。函數

好比:從用不一樣工藝製做成的燈泡中,各自抽取了若干個測量壽命,腿短這幾種工藝製成的燈泡是否有顯著差別;用幾種化肥和幾種小麥品種種子在若干試驗田裏種植小麥,腿短不一樣的化肥和小麥品種對產量有無顯著影響。工具

簡而言之,就是對影響指標(實驗的結果)的諸多因素進行分析,找出有顯著影響的因素。不一樣的因素叫作一個水平。好比,用化肥一、品種1就是因素處於一個水平,達到指標1(產量),用方差分析的方法獲得的是某個因素對指標的影響是否是顯著的,好比用化肥1仍是2這個因素對產量影響是不是顯著的。spa

單因素方差分析 只考慮一個因素 A對所關心的指標的影響, A取幾個水平,在每一個水平上做若干 個試驗,試驗過程當中除 A外其它影響指標的因素都保持不變(只有隨機因素存在),我 們的任務是從試驗結果推斷,因素 A對指標有無顯著影響,即當 A取不一樣水平時指標 有無顯著差異。3d

方差分析的理論推導(建模寫做必備)見《數學建模算法與應用》。blog

MATLAB實現:get

1. 單因素方差分析數學

1)均衡數據(單因素A的每一個水平取樣數相同)it

p = anoval(x)變量

param:

x:m*r的矩陣,m是每一個水平取樣數,r是A因素的水平數。即,x的一列是一個水平的取樣數據。

return:

p是一個機率,當p>α(α默認0.05)時接受H0,不然拒絕H0。接受H0說明A因素對於指標沒有顯著影響,也即沒有差別;拒絕H0說明是有顯著影響的。

此外,還輸出一個方差表和Box圖。

注意:接受H0 ,是將 5 名工人的生產率做爲一個總體進行假設檢驗的結果,並不表 明取其中 2 個工人的生產率做兩整體的均值檢驗時,也必定接受均值相等的假設。

例子:

image

2) 非均衡數據(單因素的各個水平取樣數不一樣)

p = anoval(x,group);

param:

x :爲向量,從第 1 組到第r 組數據依次排列;

group: 爲與 x 同長度的向量,標誌 x 中數據的組別(在與 x 第i組數據相對應的位置處輸入整數 ) 。也就是group向量的每個數說明x的一個數是屬於哪一個組。

例子:

image

 

2. 雙因素方差分析

統計工具箱中用 anova2 做雙因素方差分析。命令爲

p=anova2(x,reps)

param:

x :不一樣列的數據表示單一因素的變化狀況,不一樣行中的數據表示另外一因素的變化情 況。

若是每種行—列對(「單元」)有不止一個的觀測值,則用參數 reps 來代表每一個「單 元」多個觀測值的不一樣標號,即 reps 給出重複試驗的次數t。

例子:

image

image

image

image

 

2. 迴歸分析

迴歸分析與曲線擬合區分。

曲線擬合是,根據獲得的若干有關變量的一組數據,尋找因變量與(一個或幾個)自變量之間的一個函數,使這個函數對那組數據擬合得好。一般,函數的形式能夠由經驗、先驗知識或對數據的直觀觀察決定,要 做的工做是由數據用小二乘法計算函數中的待定係數。

可是,從數理統計的觀點看,這裏涉及的都是隨機變量,咱們根據一個樣本計算出的那些係數,只是它們的一個(點)估計,應該對它們做區間估計或假設檢驗,若是置信區間太大,甚至包含了零點,那麼係數的估計值是沒有多大意義的。能夠用方差分析 方法對模型的偏差進行分析,對擬合的優劣給出評價。

簡而言之:迴歸分析就是對擬合問題做的統計分析。

image

1)必備的知識(重點)

數理統計樣本方差,樣本均值、指望、方差、k階矩、k階中心距的概念。

數據的標準化處理:

image

 

2)一元線性迴歸

1. 用最小二乘法求出迴歸係數(即迴歸方程的待定係數)。

2. 擬合效果分析

看如下幾個標度:

a. 殘差的樣本方差(標準差)

擬合方程求出的y與真實的y之差叫殘差。求這個殘差的方差。越小越精確。

b. 斷定係數(擬合優度)

創建一元線性迴歸模型的目的, 就是試圖以x 的線性函數來解釋 y 的變異。

->求樣本的y的方差,記作SST:

image

->求迴歸方程求出的y估的方差,記作SSR:

image

->SSE = SST - SSR,即爲殘差平方和:

image

->能夠看到: SSE = SST - SSR; dfT = dfR + dfE;

從上式能夠看出,y 的變異是由兩方面的緣由引發的;一是因爲x 的取值不一樣,而 給 y 帶來的系統性變異;另外一個是由除 x之外的其它因素的影響。

也就是說:

image

從而,能夠指定斷定以下:

定義一個測量標準來講明迴歸方程對原始數據的擬合程度,這就是所謂 的斷定係數,有些文獻上也稱之爲擬合優度。

image

image

3. 顯著性檢驗

一元線性迴歸,咱們假設的是y和x是線性關係,但這個線性關係的假定是否靠譜,還要進行顯著性檢驗。

換句話說,β1係數就是線性程度,若β1趨向0,則線性關係不顯著。

假設檢驗:

H0:β1 = 0;

H1:β1 ≠ 0;

檢驗統計量(推導見課本):image

傳統檢驗,若接受H0,則線性關係不顯著。

 

4. 迴歸係數的顯著性檢驗

迴歸參數的檢驗是考察每個自變量對因變量的影響是否顯著。換句話說,就是要 檢驗每個整體參數是否顯著不爲零。

也就是說,若某一個迴歸係數接近0,那麼這個對應的變量對y的影響就是不顯著的。咱們對每個迴歸係數進行是否等於0的假設檢驗,獲得顯著性分析。

 

對於每個βi,檢驗:

H0:βi = 0;

H1:βi ≠ 0;

檢驗統計量爲:image

決策爲:

image

5. 利用迴歸方程進行預測

這裏有點估計、區間估計。

點預測代數便可。

區間預測比較複雜,用到須要查閱。

===

多元線性迴歸的步驟與上述相似,迴歸係數更多,檢驗統計量不一樣,用到的時候查閱便可。並且,某些斷定標準也有出入,用到須要仔細研讀《數學建模算法與應用》。

接下來要繼續的:

MATLAB中的多元線性迴歸:(記憶的)

(多項式的,一次的,二次的。。。)

偏相關係數。

逐次迴歸(重要)。

嶺估計(嶺迴歸)。

主成分估計。

相關文章
相關標籤/搜索