在一堆變量中,找到並分析它們之間的關係,是複雜環境和模型中的重要任務。因爲線性關係的特殊、常見和簡單,數學上每每採用線性關係來逼近實際關係。上篇的線性迴歸以及機率論中的線性迴歸,更關注的是線性函數的參數估計。若是想單純地度量隨機變量的線性關係,直接討論相關係數便可,請先複習斜方差的相關概念。數組
兩個變量之間的線性關係,就是以前學過的協方差的概念\(\text{Cov}(X,Y)\)。在獲得\(n\)個樣本\((X_i,Y_i)\)後,容易獲得式(1)的無偏估計,注意其中下降了一個自由度,繼而還能夠有式(2)的樣本相關係數。相關係數是線性關係的直接度量,它能夠做爲相關假設的檢驗條件,最經常使用的就是當\(|r|\leqslant C\)時認爲\(X,Y\)是不相關的。app
\[\dfrac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})\approx\text{Cov}(X,Y)\tag{1}\]函數
\[r=\dfrac{1}{S_XS_Y}\sum_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y}),\;\;S_X^2=\sum_{i=1}^n(X_i-\bar{X})^2\tag{2}\]設計
爲了能找到關於\(r\)的樞軸變量,這裏仍是要作一些假設,即\((X,Y)\)是一個二元正態分佈。回顧二元正態分佈的知識(《初等機率論》第5篇公式(27)),可知\(X,Y\)徹底符合一元線性迴歸的模型。爲此這裏暫且取定\(X_i\),而把\(Y_i\)當作隨機變量,並對它們進行一元迴歸分析。比較發現係數估計知足\(\alpha_1=r\cdot\dfrac{S_Y}{S_X}\),在假設\(\rho=0\)(即係數\(a_1=0\))的狀況下,把這個等式代入上篇公式(12)右的樞軸變量,整理後獲得式(3)。因爲該結論與\(X_i\)的取值無關,所以它對於變量\(X_i\)也成立,它就是咱們要找的樞軸變量。數學
\[\dfrac{r\sqrt{n-2}}{\sqrt{1-r^2}}\sim t_{n-2}\tag{3}\]變量
相關係數度量了兩個隨機變量之間的線性關係,當系統中的變量不少時,關係也會變得複雜,這時須要引入更多的關係分析。如下記要討論的\(n\)個變量爲\(X_i\),\(X_i,X_j\)的相關係數爲\(\rho_{ij}\),並記矩陣\(P=[\rho_{ij}]\),而去除\(i\)行\(j\)列後的子矩陣記做\(P_{ij}\)。在獲得樣本後,一樣能夠計算樣本相關係數\(r_{ij}\),並記矩陣\(R=[r_{ij}]\)和子矩陣\(R_{ij}\)。im
首先比較容易想到的關係,是一個變量\(X_1\)與多個變量\(X_2,\cdots,X_p\)的總體關係。回顧機率論中的線性迴歸,假設\(X_1\)對\(X_2,\cdots,X_p\)的線性迴歸是\(L(X_2,\cdots,X_p)\),則容易證實\(X_1-L\)與\(X_2,\cdots,X_p\)都不相關。仿照線性空間中的最小二乘法,\(L\)能夠當作是\(X_1\)在\(X_2,\cdots,X_p\)空間中「投影」,故用\(X_1\)和\(L\)的關係做爲\(X_1\)與\(X_2,\cdots,X_p\)的關係是比較合理的,這個關係被稱爲\(X_1\)與\(X_2,\cdots,X_p\)的複相關係數(式(4)左)。統計
\[\rho_{1(23\cdots p)}=\dfrac{\text{Cov}(X_1,L)}{\sqrt{D(X_1)D(L)}}=\sqrt{1-|P|\,/\,|P_{11}|}\tag{4}\]數據
式(4)右的證實比較繁雜,這裏先從一些引論開始。考察隨機變量\(Y\)和隨機向量\(X=[X_1,\cdots,X_n]\),爲簡化討論,設它們已經中心化。設\(Y\)關於\(X\)的迴歸函數是\(L(X)=\alpha_1X_1+\cdots+\alpha_nX_n\),則由最小二乘法能夠獲得式(5)。求解方程組便獲得\(\alpha=[\alpha_1,\cdots,\alpha_n]^T\)的解爲\(C_x^{-1}C_y\),其中\(C_x,C_y\)分別爲方程組的係數矩陣和常數列向量。ant
\[\min\{E[Y-\sum_{i=1}^n\alpha_iX_i]^2\}\;\Rightarrow\;\sum_{i=1}^n\text{Cov}(X_i,X_j)\alpha_i=\text{Cov}(Y,X_j)\tag{5}\]
而後能夠計算得\(\text{Cov}(Y,L)=D(L)=C_y^TC_x^{-1}C_y\),這時再計算複相關係數,並把協方差換算成相關係數,可得式(6)左。其中\(P_y\)是\(Y\)與\(X_i\)的相關係數組成的列向量,而\(P_x\)是\(X_i\)之間的相關係數組成的矩陣。設\(P_x\)的伴隨矩陣爲\(P_x^*\),而記\(P\)爲\((Y,X_1,\cdots,X_n)\)的相關係數矩陣,則不難發現,\(|P|\)按第\(1\)行、第\(1\)列展開後實際上是\(|P_x|-P_y^TP_x^*P_y\)。這樣就有了式(6)右成立,一樣也有式(4)右成立。
\[\rho_{Y(X)}=\sqrt{P_y^TP_x^{-1}P_y}=\sqrt{1-|P|/|P_x|}\tag{6}\]
在獲得樣本後,利用\(r_{ij}\)來估計\(\rho_{ij}\),帶入式(4)後算得的估計值稱爲樣本複相關係數\(r_{1(23\cdots p)}\)。當\((X_1,\cdots,X_p)\)是\(p\)維正態分佈時,爲檢驗假設\(\rho_{1(23\cdots p)}=0\),能夠證實有式(7)的樞軸變量。
\[\dfrac{n-p}{p-1}\cdot\dfrac{r^2}{1-r^2}\sim F_{(p-1)/2,(n-p)/2}\tag{7}\]
有時候兩個變量\(X_1,X_2\)的相關性並非由於它們有直接聯繫,而是由於它們共同與\(X_3,\cdots,X_p\)相關。因此有必要將\(X_3,\cdots,X_p\)的相關性從\(X_1,X_2\)中去除後再計算\(X_1,X_2\)的相關性,步驟也是比較天然的,先計算出\(X_1,X_2\)對\(X_3,\cdots,X_p\)的線性迴歸\(L_i(X_3,\cdots,X_p)\),而後計算\(X'_1=X_1-L_1,X'_2=X_2-L_2\)的相關係數。這樣的關係被稱爲\(X_1,X_2\)對\(X_3,\cdots,X_p\)偏相關係數(式(8)左)。
\[\rho_{12\cdot(3\cdots p)}=\dfrac{\text{Cov}(X'_1,X'_2)}{\sqrt{D(X'_1)D(X'_2)}}=\dfrac{|P_{12}|}{\sqrt{|P_{11}|\cdot|P_{22}|}}\tag{8}\]
上面引理證實過程當中的結論,一樣能夠證實式(8)右,請自行補齊證實過程。另外一樣地,能夠利用\(r_{ij}\)估計式(8)獲得樣本偏相關係數\(\rho_{12\cdot(3\cdots p)}\)。當\((X_1,\cdots,X_p)\)是\(p\)維正態分佈時,爲檢驗假設\(r_{12\cdot(3\cdots p)}=0\),能夠證實有式(9)的樞軸變量。
\[\dfrac{r\sqrt{n-p}}{\sqrt{1-r^2}}\sim t_{n-p}\tag{9}\]
前面的討論都集中在線性關係上,更通常地還須要討論通常的關係模型\(Y=f(X)+e\)。肯定具體的\(f(x)\)是一個很開放的問題,前面的線性模型算一種,數學中還有不少逼近理論也能夠派上用場。這裏不深刻討論\(f(x)\)自己,而是隻解決最簡單的假設檢驗問題,即\(X\)對\(Y\)是否有顯著影響。
如下假設\(X\)有\(k\)個採樣值\(X_i\),任務是檢驗\(Y_i\)是否受\(X_i\)影響較大。因爲\(Y\)還受到隨機因素\(e\)的影響,在同一個\(X_i\)下必定要有多個\(Y\)的採樣值,才能對\(Y_i\)有個較好的估計。設\(Y_i\)有\(n_i\)個採樣值\(Y_{ij}\),並記\(n=n_1+\cdots+n_k\),模型能夠寫成式(10)。把模型中心化會更便於處理,故令\(f(X_i)=\mu+a_i\),其中\(a_1+\cdots+a_k=0\)。
\[Y_{ij}=f(X_i)+e_{ij}=\mu+a_i+e_{ij},\;\;(e_{ij}\sim e)\tag{10}\]
你可能注意到,\(X_i\)的具體值在這裏並不重要,不一樣的\(X_i\)只是對\(Y_{ij}\)的一個分組,要檢驗的假設實際上是分佈並不受分組影響。如下記\(Y_{ij}\)的平均值是\(\bar{Y}\),而記\(Y_{i1},\cdots,Y_{in_i}\)的平均值是\(\bar{Y}_i\)。想要搞清楚\(Y_{ij}\)是否受分組影響,首先固然要看\(\bar{Y}_i\)的分散程度。而後由於隨機值\(e_{ij}\)會影響\(\bar{Y}_i\)的精確性,評估時還要對比\(e_{ij}\)的分散程度。
具體來講,分散程度通常用平方和來度量,這樣的統計量通常稱爲離差平方和。最簡單的就是全部樣本\(Y_{ij}\)的總離差平方和\(Q_T\)(式(11)左),其次是每一個\(f(X_i)\)的組內離差平方和\(Q_E\)(式(11)右)。直觀上能夠認爲總離差平方和\(Q_T\)分爲兩個部分,一部分是\(f(X_i)\)的組間離差平方和\(Q_X\),另外一部分就是組內離差平方和\(Q_E\)。所以把\(Q_X\)定義爲式(12)也是合理的,計算整理後獲得的表達式更是有直觀的意義。
\[Q_T=\sum_{i=1}^k\sum_{j=1}^n(Y_{ij}-\bar{Y})^2;\;\;Q_E=\sum_{i=1}^k\sum_{j=1}^n(Y_{ij}-\bar{Y}_i)^2\tag{11}\]
\[Q_X=Q_T-Q_E=\sum_{i=1}^kn_i(\bar{Y}_i-\bar{Y})^2\tag{12}\]
而後很容易算到它們的指望值式(13),從中不難發現,\(E[Q_X]\)仍然會含有偏差方差的信息,所以必須結合偏差信息來度量\(X\)的影響。爲度量影響大小,將假設定爲\(a_1=\cdots=a_k=0\),假設成立時稱\(X\)對\(Y\)影響顯著,不然是影響不顯著。當假設成立時,三個離差平方和中都只剩下\(\sigma^2\)項,預感樞軸變量是它們之間相除獲得的\(F\)統計量。
\[E[Q_T]=(n-1)\sigma^2+\sum_{i=1}^kn_ka_i^2;\;\;E[Q_E]=(n-r)\sigma^2\tag{13}\]
爲尋找樞軸變量,首先假定\(e\)是正態分佈,而後將式(10)右帶入式(11)(12),因爲\(a_i=0\),獲得的結果其實就是把\(Y\)換成\(e\)。考察這些關於\(e_{ij}\)的正定二次型,不可貴到\(Q_T,Q_X,Q_E\)的秩分別爲\(n-1,k-1,n-k\),由柯赫倫分解定理可知,\(\dfrac{Q_X}{\sigma^2},\dfrac{Q_E}{\sigma^2}\)分別是自由度爲\(n-k,k-1\)的卡方分佈,且它們互相獨立。
它們正好能夠用來生成\(F\)型樞軸變量(式(14)),另外因爲假設不成立時,有\(\dfrac{E[Q_X]}{k-1}>\dfrac{E[Q_E]}{n-k}\),故檢驗條件選擇\(F<C\)。須要強調,檢驗的結果只是\(X\)相對隨機值\(e\)影響\(Y\)大小的一個度量,若是直觀上看\(\bar{Y}_i\)的差異十分明顯,則說明偏差的影響特別大,須要增長實驗次數或先提取主要因素。若是假設不成立,還能夠繼續對\(a_i-a_j\)作區間估計,請自行討論其樞軸變量。
\[F=\dfrac{(n-k)Q_X}{(k-1)Q_E}\sim F_{k-1,n-k}\tag{14}\]
當\(Y\)有多個影響因素,而且各因素互相獨立時,若是針對每一個因素進行方差分析,每每須要較多的樣本數。這時能夠將多個因素合併進一個模型,以兩個因素\(A,B\)爲例,創建式(15)左的模型。假設\(A\)有\(m\)個採樣點\(A_i\),\(B\)有\(n\)個採樣點\(B_j\),則總共只須要作\(mn\)次試驗(式(15)右)。如下記\(\bar{Y}\)爲全部\(Y_{ij}\)的平均值,\(\bar{Y}_{*j}\)爲\(Y_{1j},\cdots,Y_{mj}\)的平均值,\(\bar{Y}_{i*}\)爲\(Y_{i1},\cdots,Y_{in}\)的平均值。
\[Y=A+B+e;\;\;Y_{ij}=a_i+b_j+e_{ij}\tag{15}\]
很快你會發現,想要對\(a_i,b_j\)進行估值,信息量是不夠的。上面的幾個平均值的指望值如式(16),其中並不能獲得具體的\(a_i,b_j\)。但方差分析其實只關注數據的分散性,所以只要有\(a_i,b_j\)的相對關係便可。爲此,記\(\mu=\bar{a}+\bar{b}\),而後把\(a_i,b_j\)中心化,這樣就有了式(17)中更有用的結論。
\[E[\bar{Y}]=\bar{a}+\bar{b};\;E[\bar{Y}_{*j}]=\bar{a}+b_j;\;E[\bar{Y}_{i*}]=a_i+\bar{b}\tag{16}\]
\[E[\bar{Y}]=\mu;\;E[\bar{Y}_{*j}]=\mu+\beta_j;\;E[\bar{Y}_{i*}]=\alpha_i+\mu\tag{17}\]
\(\alpha_i,\beta_j\)的方差和與\(a_i,b_j\)的方差和是同樣的,相似式(12)能夠到式(18)中方差和的估計。而後按照相同的理念,把式(19)做爲偏差方差和的估計(不用追究其直觀意義)。容易知道\(Q_T,Q_A,Q_B\)的自由度分別是\(mn-1,m-1,n-1\),則\(Q_E\)的自由度是\((m-1)(n-1)\)。接下來能夠獲得兩個相似式(14)的樞軸變量。
\[Q_A=n\sum_{i=1}^m(\bar{Y}_{i*}-\bar{Y})^2;\;\;Q_B=m\sum_{j=1}^n(\bar{Y}_{*j}-\bar{Y})^2\tag{18}\]
\[Q_E=Q_T-Q_A-Q_B=\sum_{i=1}^m\sum_{j=1}^n(Y_{ij}-\bar{Y}_{i*}-\bar{Y}_{*j}+\bar{Y})^2\tag{19}\]
二元方差分析的模型其實能夠直接用在單元素的區組設計上,即假定檢驗的目標是\(A\),在每一個狀況\(A_i\)下進行\(n\)次試驗。這\(mn\)次試驗本來能夠隨機安排,但若是\(mn\)個試驗環境存在可知的差別,在設計試驗時就要使得每種狀況\(A_i\)儘可能出如今不一樣的環境中。以最理想的場景爲例,試驗環境正好能夠分爲\(n\)種,而每種內部的\(m\)個小環境是相同的,這時環境因素就能夠看作是因素\(B\)。
區組設計的目的是爲了排除隨機環境對試驗的影響,當環境差距明顯時,直接用兩因素模型能夠獲得更準確的檢驗。但要注意,若是環境差別並不明顯,組內離差平方和會被低估,再加上自由度的損失,平均離差平方和更是被嚴重低估。所以若是檢測出環境影響甚微,應當直接採用單因素的方差分析。
【全篇完】