【數學建模】day07-數理統計II

時間 2020-05-26

原文原文鏈接

方差分析和迴歸分析。算法

用數理統計分析試驗結果、鑑別各因素對結果影響程度的方法稱爲方差分析（Analysis Of Variance），記做 ANOVA。函數

好比：從用不一樣工藝製做成的燈泡中，各自抽取了若干個測量壽命，腿短這幾種工藝製成的燈泡是否有顯著差別；用幾種化肥和幾種小麥品種種子在若干試驗田裏種植小麥，腿短不一樣的化肥和小麥品種對產量有無顯著影響。工具

簡而言之，就是對影響指標（實驗的結果）的諸多因素進行分析，找出有顯著影響的因素。不一樣的因素叫作一個水平。好比，用化肥一、品種1就是因素處於一個水平，達到指標1（產量），用方差分析的方法獲得的是某個因素對指標的影響是否是顯著的，好比用化肥1仍是2這個因素對產量影響是不是顯著的。spa

單因素方差分析只考慮一個因素 A對所關心的指標的影響， A取幾個水平，在每一個水平上做若干個試驗，試驗過程當中除 A外其它影響指標的因素都保持不變（只有隨機因素存在），我們的任務是從試驗結果推斷，因素 A對指標有無顯著影響，即當 A取不一樣水平時指標有無顯著差異。3d

方差分析的理論推導（建模寫做必備）見《數學建模算法與應用》。blog

MATLAB實現：get

1. 單因素方差分析數學

1）均衡數據（單因素A的每一個水平取樣數相同）it

p = anoval(x)變量

param:

x：m*r的矩陣，m是每一個水平取樣數，r是A因素的水平數。即，x的一列是一個水平的取樣數據。

return:

p是一個機率，當p>α（α默認0.05）時接受H0，不然拒絕H0。接受H0說明A因素對於指標沒有顯著影響，也即沒有差別；拒絕H0說明是有顯著影響的。

此外，還輸出一個方差表和Box圖。

注意：接受H0 ，是將 5 名工人的生產率做爲一個總體進行假設檢驗的結果，並不表明取其中 2 個工人的生產率做兩整體的均值檢驗時，也必定接受均值相等的假設。

例子：

2) 非均衡數據（單因素的各個水平取樣數不一樣）

p = anoval(x,group)；

param：

x ：爲向量，從第 1 組到第r 組數據依次排列；

group：爲與 x 同長度的向量，標誌 x 中數據的組別（在與 x 第i組數據相對應的位置處輸入整數 ) 。也就是group向量的每個數說明x的一個數是屬於哪一個組。

例子：

2. 雙因素方差分析

統計工具箱中用 anova2 做雙因素方差分析。命令爲

p=anova2(x,reps)

param:

x :不一樣列的數據表示單一因素的變化狀況，不一樣行中的數據表示另外一因素的變化情況。

若是每種行—列對（「單元」）有不止一個的觀測值，則用參數 reps 來代表每一個「單元」多個觀測值的不一樣標號，即 reps 給出重複試驗的次數t。

例子：

2. 迴歸分析

迴歸分析與曲線擬合區分。

曲線擬合是，根據獲得的若干有關變量的一組數據，尋找因變量與（一個或幾個）自變量之間的一個函數，使這個函數對那組數據擬合得好。一般，函數的形式能夠由經驗、先驗知識或對數據的直觀觀察決定，要做的工做是由數據用小二乘法計算函數中的待定係數。

可是，從數理統計的觀點看，這裏涉及的都是隨機變量，咱們根據一個樣本計算出的那些係數，只是它們的一個（點）估計，應該對它們做區間估計或假設檢驗，若是置信區間太大，甚至包含了零點，那麼係數的估計值是沒有多大意義的。能夠用方差分析方法對模型的偏差進行分析，對擬合的優劣給出評價。

簡而言之：迴歸分析就是對擬合問題做的統計分析。

1）必備的知識（重點）

數理統計樣本方差，樣本均值、指望、方差、k階矩、k階中心距的概念。

數據的標準化處理：

2）一元線性迴歸

1. 用最小二乘法求出迴歸係數（即迴歸方程的待定係數）。

2. 擬合效果分析

看如下幾個標度：

a. 殘差的樣本方差（標準差）

擬合方程求出的y與真實的y之差叫殘差。求這個殘差的方差。越小越精確。

b. 斷定係數（擬合優度）

創建一元線性迴歸模型的目的，就是試圖以x 的線性函數來解釋 y 的變異。

->求樣本的y的方差，記作SST：

->求迴歸方程求出的y估的方差，記作SSR：

->SSE = SST - SSR，即爲殘差平方和：

->能夠看到: SSE = SST - SSR; dfT = dfR + dfE;

從上式能夠看出，y 的變異是由兩方面的緣由引發的；一是因爲x 的取值不一樣，而給 y 帶來的系統性變異；另外一個是由除 x之外的其它因素的影響。

也就是說：

從而，能夠指定斷定以下：

定義一個測量標準來講明迴歸方程對原始數據的擬合程度，這就是所謂的斷定係數，有些文獻上也稱之爲擬合優度。

3. 顯著性檢驗

一元線性迴歸，咱們假設的是y和x是線性關係，但這個線性關係的假定是否靠譜，還要進行顯著性檢驗。

換句話說，β1係數就是線性程度，若β1趨向0，則線性關係不顯著。

假設檢驗：

H0：β1 = 0；

H1：β1 ≠ 0；

檢驗統計量（推導見課本）：

傳統檢驗，若接受H0，則線性關係不顯著。

4. 迴歸係數的顯著性檢驗

迴歸參數的檢驗是考察每個自變量對因變量的影響是否顯著。換句話說，就是要檢驗每個整體參數是否顯著不爲零。

也就是說，若某一個迴歸係數接近0，那麼這個對應的變量對y的影響就是不顯著的。咱們對每個迴歸係數進行是否等於0的假設檢驗，獲得顯著性分析。

對於每個βi，檢驗：

H0：βi = 0；

H1：βi ≠ 0；

檢驗統計量爲：

決策爲：

5. 利用迴歸方程進行預測

這裏有點估計、區間估計。

點預測代數便可。

區間預測比較複雜，用到須要查閱。

===

多元線性迴歸的步驟與上述相似，迴歸係數更多，檢驗統計量不一樣，用到的時候查閱便可。並且，某些斷定標準也有出入，用到須要仔細研讀《數學建模算法與應用》。

接下來要繼續的：

MATLAB中的多元線性迴歸：（記憶的）

（多項式的，一次的，二次的。。。）

偏相關係數。

逐次迴歸（重要）。

嶺估計（嶺迴歸）。

主成分估計。