本篇是第八章,內容是方差分析。前一段考試,彙報,做業。忙不過來,停更了一段時間,如今從新開始更這一部份內容。方差分析是不少實驗的基礎以及很重要的分析手段,這一章內容相比較而言比較多。面試
方差分析其實對咱們來講並不陌生,由於大學搞生態的那羣同窗,實驗中無數次出現了單方差因素分析的方法。那麼方差分析到底是什麼呢?從引論來講,咱們舉個跟地學領域相關的例子。 不一樣地貌對土壤有機質是否有影響? 簡單地說方差分析實質適合分析的是一系列數值型數據存在某個屬性(也能夠是某些),而後這個屬性能夠按照必定的規則分紅幾個類別(或者叫水平),咱們想了解的就是,不一樣類別或者不一樣水平的這個數值是否存在顯著性差別。簡單的理解,它是處理分類型數據的。 這裏須要跟上一章提到的擬合優度檢驗、後面講到的迴歸分析作些區別,擬合優度檢驗一般是分析兩個分類變量的關係,迴歸分析則分析的是一個數值型變量(或多個數值型變量)對一個數值型變量的影響(或者說兩者的關係)。而方差分析則是分析一個分類變量(或多個分類變量)對於一個數值變量的影響(或者說兩者的關係)。 這裏給出一些定義和術語(不喜愛數學的同窗能夠跳過,但請記住我上面的內容): 方差分析(Analysis of Variance,ANOVA) 研究分類型自變量對數值型因變量的影響編程
- 一個或多個分類型自變量 兩個或多個 (k 個) 處理或分類
- 一個數值型因變量
經過檢驗多個整體均值是否相等來判斷是否有顯著影響數據結構
- 經過分析數據的偏差判斷各整體均值是否相等
有單因子方差分析和雙因子方差分析dom
- 單因子方差分析:涉及一個分類型自變量
- 雙因子方差分析:涉及兩個分類型自變量
方差分析 vs 假設檢驗 (1)假設檢驗:一次只能研究兩個樣本函數
- 須要比較的次數隨因子的數量增多而增多;
- 第一類錯誤發生的可能性增大。
(2)方差分析:同時分析多個樣本設計
- 提升檢驗效率;
- 將全部信息結合在一塊兒, 增長了分析的可靠性。
- 因子或因素 (factor)——所要檢驗的對象,要分析行業對投訴次數是否有影響, 行業是要檢驗的因子或因素。
- 水平或處理(treatment):因子的不一樣表現,零售業、 旅遊業、 航空公司、 家電製造業就是因子的處理。
- 觀察值:在每一個因子處理下獲得的樣本數據,每一個行業被投訴的次數就是觀察值。
- 試驗:涉及一個因子多水平, 可稱爲單因子多處理的試驗。
- 整體:因子的每個處理看做是一個整體。
- 樣本數據:觀察值能夠看做是從着多個整體中抽取的樣本數據
也就是說分類變量是因子或因素,而分的類別就能夠稱爲水平或處理,觀察值則是數值型變量。試驗就是就是分類的過程,整體其實就是水平,樣本數據就是觀測值。 接下來說講方差分析的基本思想和原理。code
方差分析的基本思想和原理基於兩類偏差。也就是隨機偏差和系統偏差。對象
- 隨機偏差——因子的同一處理(整體)下, 樣本各觀察值之間的差別,這種差別能夠當作是隨機因素的影響, 稱爲隨機偏差。
- 系統偏差——因子的不一樣處理(不一樣整體)下, 各觀察值之間的差別,這種差別多是因爲抽樣的隨機性所形成的, 也多是因爲行業自己所形成的, 後者所造成的偏差是由系統性因素形成的, 稱爲系統偏差。
因此方差分析的實質是——比較兩類偏差,以檢驗均值是否相等;比較的基礎是方差比;若是系統(處理)偏差明顯地不一樣於隨機偏差,則均值就是不相等的;反之,均值就是相等的。 這裏數據的偏差用平方和(sum of squares)表示。事件
- 組內平方和(within groups)——因子的同一處理(同一個整體)下樣本數據的平方和。組內平方和只包含隨機偏差。
- 組間平方和(between groups)——因子的不一樣處理(不一樣整體)下各樣本之間的平方和。組間平方和既包括隨機偏差, 也包括系統偏差。
因此若原假設成立, 組間平方和與組內平方和通過平均後的數值就應該很接近, 它們的比值就會接近1。圖片
- 若原假設不成立, 組間平方和平均後的數值就會大於組內平方和平均後的數值, 它們之間的比值 就會大於1。
- 當這個比值大到某種程度時, 就能夠說不一樣處理之間存在着顯著差別, 也就是自變量對因變量有影響。
(1)每一個整體都應服從正態分佈:
- 對於因子的每個處理, 其觀察值是來自服從正態分佈整體的簡單隨機樣本。
(2)各個整體的方差必須相同:
- 各組觀察數據是從具備相同方差的整體中抽取的。
(3)觀察值是獨立的。 (4)在上述假定條件下, 判斷行業對投訴次數是否有顯著影響, 實際上也就是檢驗具備同方差的四個正態整體的均值是否相等。 (5)若是四個整體的均值相等, 能夠指望四個樣本的均值也會很接近:
- 四個樣本的均值越接近, 推斷四個整體均值相等的證據也就越充分;
- 樣本均值越不一樣, 推斷整體均值不一樣的證據就越充分。
這裏要注意的是,每每不少人作統計的時候每每不考慮前提和假設,這是一個錯誤。經典統計學中不少模型都有嚴密的數學推導和前提假設,就筆者從事的地學領域裏其實有不少現象不是太遵循經典統計學的前提,由此也衍生出了空間統計學理論,因此在作統計研究時須要考量本身數據的特徵,瞭解統計學與模型的基本前提與假設。
- 至少有一個整體的均值是不一樣的;
- 樣本分別來自均值不一樣的多個個正態整體。
從這章開始後面的部分基本是典型數據分析,故我會滲透更多的數據分析的一些經驗和理念。在這裏由於要正式進入方差分析的具體內容裏,因此我想談的一點是我曾經說過的一句話——編程先學數據結構。數據結構的重要性能夠參加下面的知乎。
固然對於R或是其餘數據處理語言來講,我以爲最關鍵的是你在使用分析數據(調用各類包)時須要瞭解你所調用的包或者函數處理的是什麼樣的數據(你要把數據處理成你的函數能夠讀的形式)。 固然這是題外話,仍是回到標題的單因子方差分析。
若是一個試驗中,只有一個因子在變,而其它因素保持不變,稱此試驗爲單因子試驗(只涉及一個分類型自變量)。那麼它的數據結構以下所示:
固然事實上在分析的時候,我的以爲R和其餘數據所能讀取的數據結構或者說組織方式仍是2列的變量(數值型變量與分類變量)。
分析步驟則是統計學的經典三部曲:
- 提出假設;
- 構造檢驗統計量;
- 統計決策。
假設的提法在前面已經提過了。
構造統計量須要計算 (1)處理的均值 (2)所有觀察值的總均值 (3)平方和 (4)均方(MS)
(接下來是公式大全,公式恐懼症者請跳過) (1)處理的均值
(2)所有觀察值的總均值
(3)平方和 方差分析須要計算三個平方和。
實際上,SST=SSTR+SSE SST反映所有數據總的偏差程度; SSE反映隨機偏差的大小; SSTR反映隨機偏差和系統偏差的大小。 若是原假設成立, 則代表沒有系統偏差, 處理平方和SSTR除以自由度後的均方與偏差平方和SSE和除以自由度後的均方差別就不會太大;若是處理均方顯著地大於偏差均方, 說明各處理(整體)之間的差別不只有隨機偏差, 還有系統偏差。 判斷因子的處理是否對其觀察值有影響, 實際上就是比較處理均方與偏差均方之間差別的大小。
(4)均方——構建檢驗統計量 各平方和的大小與觀察值的多少有關, 爲消除觀察值多少對平方和大小的影響, 須要將其平均, 這就是均方, 也稱爲方差。計算方法是用平方和除以相應的自由度,三個平方和對應的自由度分別是: SST 的自由度爲n-1, 其中n爲所有觀察值的個數,SSTR的自由度爲k-1, 其中k爲因子處理(整體)的個數,SSE 的自由度爲n-k。 處理均方:SSTR的均方, 記爲MSTR, 計算公式爲:
偏差均方:SSE的均方,記爲MSE, 計算公式爲:
計算檢驗統計量F: 將MSTR和MSE進行對比, 即獲得所須要的檢驗統計量F,當$H_0$爲真時, 兩者的比值服從分子自由度爲k-一、分母自由度爲n-k的F分佈, 即
最後是統計決策將統計量的值F與給定的顯著性水平α的臨界值Fα進行比較,做出對原假設H0的決策。
對前面的三部曲作一個進一步的總結:
(1)提出假設; (2)構造檢驗統計量; 均值:所有觀察值的總均值、處理的均值。 平方和:總平方和SST,處理平方和SSTR,偏差平方和SSE。 均方:處理均方MSTR,偏差均方MSE。 均方比:MSTR/MSE~F分佈。 (3) 統計決策。
在R語言中,方差分析函數較爲簡單,具體應用後面再說。value爲觀察值,factor爲因素。
a.aov<-aov(value~factor,data=a) summary(a.aov)
偏差來源(方差來源) | 平方和(SS) | 自由度(df) | 均方(MS) | F |
---|---|---|---|---|
組間(處理) | SSTR | k-1 | MSTR=SSTR/(k-1) | MSTR/MSE |
組內(偏差) | SSE | n-k | MSE=SSE/(n-k) | |
總計(合計) | SST | n-1 | ||
固然僅僅證實有顯著性差別,可能還不能知足咱們的需求,因此須要測度方差分析的關係強度。 | ||||
關係強度的測量 | ||||
拒絕原假設代表因子(自變量)與觀測值之間有關係,而處理平方和(SSTR)度量了自變量(行業)對因變量 | ||||
(投訴次數)的影響效應。 |
- 當處理平方和比偏差平方和(SSE)大, 並且大到必定程度時, 就意味着兩個變量之間的關係顯著, 大得越多, 代表它們之間的關係就越強。 反之, 就意味着兩個變量之間的關係不顯著, 小得越多, 代表它們之間的關係就越弱。
變量間關係的強度用處理平方和(SSTR)及偏差平方和(SSE)佔總平方和(SST)的比例大小來反映。
其平方根R就能夠用來測量兩個變量之間的關係強度。
多重比較(multiple comparison procedures)——經過對整體均值之間的配對比較來進一步檢驗到底哪些均值之間存在差別。
- 可採用Fisher提出的最小顯著差別方法, 簡寫爲LSD-least significant difference。LSD方法是對檢驗兩個整體均值是否相等的t檢驗方法的整體方差估計加以修正( 用MSE來代替) 而獲得的。
方差分析中的多重比較分析步驟
前面介紹完了單因子方差分析,可是當咱們的因子大於一個的時候,咱們又該怎麼分析呢?一樣拋個樣例問題出來。 假設如今咱們想了解北京城市人口空間分佈是否受不一樣環路(一環、二環、三環乃至4、5、六環)或新老城區的顯著影響。因此該問題是一個典型的雙因子問題,能夠拆分爲以下的狀況:
因子 | 新城區 | 老城區 |
---|---|---|
一環 | 人口 | 人口 |
二環 | 人口 | 人口 |
三環 | 人口 | 人口 |
對於該問題咱們能夠考慮用單因子方差分析來解決——即經過考慮兩個因子間全部的組合來分析是否有顯著影響。(二環+新城區,二環+老城區,三環+新城區,……,六環+老城區)經過這樣組合來獲得最後的單因子水平。可是這樣處理的問題是,咱們沒法瞭解究竟是新老城區的因素影響了人口的空間分佈,或者是不一樣的環路影響了人口的空間分佈,亦或是兩者共同影響。因此咱們須要新的方法來分析。這就是題目所述的雙因子方差分析。
(1) 每一個整體都服從正態分佈(對於因素的每個水平, 其觀察值是來自正態分佈整體的簡單隨機樣本)。 (2) 各個整體的方差必須相同(對於各組觀察數據, 是從具備相同方差的整體中抽取的)。 (3) 觀察值是獨立的。
雙因子方差分析實質是分析兩個因素(行因素Row和列因素Column)對試驗結果的影響。 若是兩個因素對試驗結果的影響是相互獨立的, 分別判斷行因素和列因素對試驗數據的影響, 這時的雙因素方差分析稱爲無交互做用的雙因素方差分析或無重複雙因素方差分析(Two-factor without replication)。 若是除了行因素和列因素對試驗數據的單獨影響外,兩個因素的搭配還會對結果產生一種新的影響, 這 時的雙因素方差分析稱爲有交互做用的雙因素方差分析或可重複雙因素方差分析 (Two-factor with replication )。
若是在一項試驗中,有兩個因子在變,而其他因子保持不變,則稱之爲雙因子試驗。
(1)無交互做用雙因子方差分析:模型
(2)無交互做用雙因子方差分析:假設
(3)計算步驟(公式大全)
- 均方:
- 平方和:
- 計算均方(MS)構造檢驗統計量: 偏差平方和除以相應的自由度,四個平方和的自由度分別是: 總離差平方和SST的自由度爲 ab-1; A因素的離差平方和SSA的自由度爲 a-1; B因素的離差平方和SSB的自由度爲 b-1; 隨機偏差平方和SSE的自由度爲 (a-1)×(b-1)。 A因素的均方,記爲MSA,計算公式爲:
B因素的均方,記爲MSB,計算公式爲:
隨機偏差項的均方,記爲MSE,計算公式爲:
- 計算檢驗統計量(F) 檢驗行因素的統計量
檢驗列因素的統計量
- 統計決策
偏差來源(方差來源) | 平方和 | 自由度 | 均方 | F |
---|---|---|---|---|
因子A | SSA | a-1 | MSA=SSA/(a-1) | MSA/MSE |
因子B | SSB | b-1 | MSB=SSB/(b-1) | MSB/MSE |
偏差 | SSE | (a-1)(b-1) | MSE=SSE/(a-1)(b-1)) | |
總計 | SST | ab-1 |
除了上面的無交互做用雙因子方差分析以外,可能存在的一種狀況就是兩者同時做用,這就是有交互做用的雙因子方差分析。 即($A_i,B_j$)下做了r個試驗,所得結果記做 且相互獨立。 (1)有交互做用雙因子方差分析:模型
(2)交互做用雙因子方差分析:假設
計算步驟(公式大全)
- 平方和
- 計算檢驗統計量(F)
拒絕域
偏差來源(方差來源) | 平方和 | 自由度 | 均方 | F |
---|---|---|---|---|
因子A | SSA | a-1 | MSA=SSA/(a-1) | MSA/MSE |
因子B | SSB | b-1 | MSB=SSB/(b-1) | MSB/MSE |
交互做用 | SSAB | (a-1)(b-1) | MSB=SSAB/(a-1)(b-1) | MSAB/MSE |
偏差 | SSE | ab(r-1) | MSE=SSE/ab(r-1)) | |
總計 | SST | abr-1 |
談完了方差分析的各類理論,回顧開頭咱們提到的「搞實驗的同窗常用單因素方差分析」,因此在實驗設計裏,方差分析的應用是很是廣泛的。因此這裏也談談實驗設計的一些內容(筆者非實驗設計人員,因此僅談談一些理念)。 一個實驗必須施加一些處理,來觀察這些處理會不會對實驗結果或者測量值有影響。不一樣的處理是用來比較不一樣的整體。而好的實驗,這些處理必須是隨機的。所謂的隨機就是指,每一個樣本有同等的機會(等機率事件)接收這些處理。 因此對於這個隨機化的比喻就是,你必須閉着眼睛選,才能保證你選的水平是隨機的。 實驗相比於觀察的優勢也在於此,隨機化使的兩個比較整體儘量類似,一切東西都是同樣的除了選擇處理的水平,若是實驗結果存在差別的話,咱們就能得出結論,這個處理是否會形成實驗結果的不一樣。實驗是咱們設計的,能夠控制實驗的變量(很熟悉的控制變量法)——咱們能保證咱們比較的兩個整體除了處理以外大體是同樣的,而觀察則沒法保證咱們所觀察的兩個整體僅僅存在某個處理上的差別,其餘都是一致的。 從這個角度來講,實驗設計的注意要點以下:
(1) 因子數量(單因子方差分析,雙因子方差分析……); (2) 因子處理的數量。 (3) 實驗設計類型
前兩個點你們可能都很清楚了,主要談談第三個點。 實驗設計類型嚴格來講包括以下:
(1)徹底因素位級組合(Full factorial design)
- 徹底隨機化設計
- 隨機化區組設計 (2)部分因素位級組合(Fractional factorial design)
(1)徹底因素位級組合(Full factorial design) 顧名思義,就是講全部因子的全部組合考慮一遍,形成的問題就是——實驗規模巨大。 如下幾個要點:
- 若是有k個因子,對於k個因子的第i個水平來講,會有ni個水平的觀測值:
- 必須實驗每一個可能的因子水平的組合。
- 必須捕獲有關交互的所有信息。
- 大量的工做。
主要還包括兩種類型。
- 徹底隨機化設計(completely randomized design)——「處理」 被隨機地指派給試驗單元的一種設計,「處理」 是指可控制的因子的各個水平 「試驗單元(experiment unit)」是接受「處理」的對象或實體。
- 隨機化區組設計(randomized block design)——先按必定規則將試驗單元劃分爲若干同質組, 稱爲「 區組(block)」,再將各類處理隨機地指派給各個區組,分組後再將每一個品種( 處理) 隨機地指派給每一 個區組的設計就是隨機化區組設計。若是可能, 咱們應選擇隨機化區組設計。
(2)部分因素位級組合(Fractional factorial design)
- 僅測量部分因子水平的組合的結果。
- 必須認真設計來捕獲全部可能的交互做用。
- 相比而言,工做量下降了,不肯定性增大了。
- 在知道一些因子不存在交互做用的前提下特別有效。
典型的是正交試驗設計——利用「正交表」進行科學地安排與分析多因子試驗的方法。其主要優勢是能在不少試驗方案中挑選出表明性強的少數幾個試驗方案,而且經過這少數試驗方案的試驗結果的分析,推斷出最優方案,同時還能夠做進一步的分析,獲得比試驗結果自己給出的還要多的有關各因子的信息。
- 正交表的性質(正交性) 每列中不一樣數字出現的次數是相等的。每一個因子不一樣的水平出現的次數相同。表示:在試驗安排中,所挑選出來的水平組合是均勻分佈的(每一個因子的各水平出現的次數相同)——整齊可比性。 對於任意兩列,將同一行的兩個數字當作有序數對時,每種數對出現的次數是相等的。任意兩個因子都全面試驗。表示:任意兩因子的各類水平的搭配在所選試驗中出現的次數相等——均衡分散性。 正交表的優勢:各因子的各水平的搭配是均衡的。 試驗點均衡分散在所有試驗條件之中,使得它的表明性很強,可以比較全面地反映、分析出全面試驗的最優勢來。
- 用正交表安排試驗的步驟 明確試驗目的,肯定試驗指標。 肯定要考察的(主要)因子和水平——各水平次序最好隨機排列(由於正交試驗不是全面試驗)。 選用合適的正交表,安排試驗計劃:根據因子的水平,選擇相應水平的正交表;再根據欲考察因子的個數選定正交表中因子的個數。 根據計劃進行試驗,肯定試驗指標。 對試驗結果進行分析,得出合理的結論。
- 正交試驗結果的分析方法 直觀分析法:簡單、直觀、容易操做,計算量少。 方差分析:理論根據可靠,結果可信度高,計算量比較大。 正交試驗的直觀分析法 計算各因子各水平的綜合平均值,選出各因子的最優水平。對給定因子的每一個水平,其它因子對試驗指標的影響是相同的,所以可用綜合平均值來比較各指標對試驗指標的影響(綜合可比性)。 計算個因子綜合平均值的極差,分清因子的主次(在平均值中最大數與最小數之差,稱爲極差。極差的大小序列,表示因子的重要性大小)。 選定最優組合——選定最優組合的原則:對於重要因子,必定要選最優水平,以期達到較好試驗效果;對於不重要因子,因爲它們的水平變更對試驗結果影響不大,可根據節約、高效、簡便易行等實際狀況靈活選定其水平。 正交試驗的方差分析 假定試驗指標服從正態分佈 基本思想與雙因子方差分析方法一致:將總的離差平方和分解成各因子及各交互做用的離差平方和,構造F統計量,對各因子是否對試驗指標具備顯著影響,做F檢驗。