方差分析和迴歸分析。算法
用數理統計分析試驗結果、鑑別各因素對結果影響程度的方法稱爲方差分析(Analysis Of Variance),記做 ANOVA。函數
好比:從用不一樣工藝製做成的燈泡中,各自抽取了若干個測量壽命,腿短這幾種工藝製成的燈泡是否有顯著差別;用幾種化肥和幾種小麥品種種子在若干試驗田裏種植小麥,腿短不一樣的化肥和小麥品種對產量有無顯著影響。工具
簡而言之,就是對影響指標(實驗的結果)的諸多因素進行分析,找出有顯著影響的因素。不一樣的因素叫作一個水平。好比,用化肥一、品種1就是因素處於一個水平,達到指標1(產量),用方差分析的方法獲得的是某個因素對指標的影響是否是顯著的,好比用化肥1仍是2這個因素對產量影響是不是顯著的。spa
單因素方差分析 只考慮一個因素 A對所關心的指標的影響, A取幾個水平,在每一個水平上做若干 個試驗,試驗過程當中除 A外其它影響指標的因素都保持不變(只有隨機因素存在),我 們的任務是從試驗結果推斷,因素 A對指標有無顯著影響,即當 A取不一樣水平時指標 有無顯著差異。3d
方差分析的理論推導(建模寫做必備)見《數學建模算法與應用》。blog
MATLAB實現:get
1. 單因素方差分析數學
1)均衡數據(單因素A的每一個水平取樣數相同)it
p = anoval(x)變量
param:
x:m*r的矩陣,m是每一個水平取樣數,r是A因素的水平數。即,x的一列是一個水平的取樣數據。
return:
p是一個機率,當p>α(α默認0.05)時接受H0,不然拒絕H0。接受H0說明A因素對於指標沒有顯著影響,也即沒有差別;拒絕H0說明是有顯著影響的。
此外,還輸出一個方差表和Box圖。
注意:接受H0 ,是將 5 名工人的生產率做爲一個總體進行假設檢驗的結果,並不表 明取其中 2 個工人的生產率做兩整體的均值檢驗時,也必定接受均值相等的假設。
例子:
2) 非均衡數據(單因素的各個水平取樣數不一樣)
p = anoval(x,group);
param:
x :爲向量,從第 1 組到第r 組數據依次排列;
group: 爲與 x 同長度的向量,標誌 x 中數據的組別(在與 x 第i組數據相對應的位置處輸入整數 ) 。也就是group向量的每個數說明x的一個數是屬於哪一個組。
例子:
2. 雙因素方差分析
統計工具箱中用 anova2 做雙因素方差分析。命令爲
p=anova2(x,reps)
param:
x :不一樣列的數據表示單一因素的變化狀況,不一樣行中的數據表示另外一因素的變化情 況。
若是每種行—列對(「單元」)有不止一個的觀測值,則用參數 reps 來代表每一個「單 元」多個觀測值的不一樣標號,即 reps 給出重複試驗的次數t。
例子:
2. 迴歸分析
迴歸分析與曲線擬合區分。
曲線擬合是,根據獲得的若干有關變量的一組數據,尋找因變量與(一個或幾個)自變量之間的一個函數,使這個函數對那組數據擬合得好。一般,函數的形式能夠由經驗、先驗知識或對數據的直觀觀察決定,要 做的工做是由數據用小二乘法計算函數中的待定係數。
可是,從數理統計的觀點看,這裏涉及的都是隨機變量,咱們根據一個樣本計算出的那些係數,只是它們的一個(點)估計,應該對它們做區間估計或假設檢驗,若是置信區間太大,甚至包含了零點,那麼係數的估計值是沒有多大意義的。能夠用方差分析 方法對模型的偏差進行分析,對擬合的優劣給出評價。
簡而言之:迴歸分析就是對擬合問題做的統計分析。
1)必備的知識(重點)
數理統計樣本方差,樣本均值、指望、方差、k階矩、k階中心距的概念。
數據的標準化處理:
2)一元線性迴歸
1. 用最小二乘法求出迴歸係數(即迴歸方程的待定係數)。
2. 擬合效果分析
看如下幾個標度:
a. 殘差的樣本方差(標準差)
擬合方程求出的y與真實的y之差叫殘差。求這個殘差的方差。越小越精確。
b. 斷定係數(擬合優度)
創建一元線性迴歸模型的目的, 就是試圖以x 的線性函數來解釋 y 的變異。
->求樣本的y的方差,記作SST:
->求迴歸方程求出的y估的方差,記作SSR:
->SSE = SST - SSR,即爲殘差平方和:
->能夠看到: SSE = SST - SSR; dfT = dfR + dfE;
從上式能夠看出,y 的變異是由兩方面的緣由引發的;一是因爲x 的取值不一樣,而 給 y 帶來的系統性變異;另外一個是由除 x之外的其它因素的影響。
也就是說:
從而,能夠指定斷定以下:
定義一個測量標準來講明迴歸方程對原始數據的擬合程度,這就是所謂 的斷定係數,有些文獻上也稱之爲擬合優度。
3. 顯著性檢驗
一元線性迴歸,咱們假設的是y和x是線性關係,但這個線性關係的假定是否靠譜,還要進行顯著性檢驗。
換句話說,β1係數就是線性程度,若β1趨向0,則線性關係不顯著。
假設檢驗:
H0:β1 = 0;
H1:β1 ≠ 0;
傳統檢驗,若接受H0,則線性關係不顯著。
4. 迴歸係數的顯著性檢驗
迴歸參數的檢驗是考察每個自變量對因變量的影響是否顯著。換句話說,就是要 檢驗每個整體參數是否顯著不爲零。
也就是說,若某一個迴歸係數接近0,那麼這個對應的變量對y的影響就是不顯著的。咱們對每個迴歸係數進行是否等於0的假設檢驗,獲得顯著性分析。
對於每個βi,檢驗:
H0:βi = 0;
H1:βi ≠ 0;
決策爲:
5. 利用迴歸方程進行預測
這裏有點估計、區間估計。
點預測代數便可。
區間預測比較複雜,用到須要查閱。
===
多元線性迴歸的步驟與上述相似,迴歸係數更多,檢驗統計量不一樣,用到的時候查閱便可。並且,某些斷定標準也有出入,用到須要仔細研讀《數學建模算法與應用》。
接下來要繼續的:
MATLAB中的多元線性迴歸:(記憶的)
(多項式的,一次的,二次的。。。)
偏相關係數。
逐次迴歸(重要)。
嶺估計(嶺迴歸)。
主成分估計。