【數學建模】day11-典型相關分析

時間 2020-05-26

原文原文鏈接

這與主成分分析有點類似。app

0. 基本思想
主成分分析（PCA）是把原始有相關性變量，線性組合出無關的變量（投影），以利用主成分變量進行更加有效的分析。
而典型相關分析（CCA）的思想是：less

分析自變量組 X = [x1,x2,x3…xp]，因變量組 Y = [y1,y2,y3…yq] 之間的相關性。(注意這裏X的每個自變量x1是個列向量，表明有多個觀測值)。dom

若是採用傳統的相關分析，只要求X的每個變量與Y的每個變量的相關係數，從而組成相關係數矩陣 R = [r_ij]_p*q,rij表示第i個自變量xi與第j個因變量yj之間的相關係數。ide

然而，這是有缺陷的：只粗暴的考慮了X與Y的關係，卻忽略了X自變量之間也可能有相關關係，Y因變量之間亦如此。函數

解決的方法相似於主成分分析，咱們能夠把X提取出主成分，Y也提取出主成分，從而X、Y內部線性不相關了，這樣利用主成分研究X與Y之間相關性就解決了上述缺點。ui

1. 典型相關分析spa

典型相關分析：3d

假設code

自變量組：X = [x1,x2,x3…xp]orm

因變量組：Y = [y1,y2,y3…yq]

注意，xi與yj都是相同維度的列向量。

要求

分析X與Y之間的相關性

2 直觀描述

首先在X中找出線性組合u1, 在Y中找出線性組合v1，使得 r(u1,v1)達到最大。

其次，在X中找第二個線性組合u2，Y中找第二個線性組合v2,要求使得u2與u1線性不相關，v2與v1線性不相關，而且: r(u2,v2)達到次大。

繼續。直到兩組變量之間的相關性被提取完畢。

3 數學描述

數學描述：

線性組合獲得的變量稱做典型變量。

4. 典型相關模型的分析

須要分析原始變量與典型變量之間的相關性。

原始變量xi與典型變量uj之間的相關性爲：

式中，α是典型變量係數。

同理可求得原始變量xi與典型變量vj、yi與vj、yi與uj之間的相關係數。

建模時能夠列出這四個相關係數表格。

進而，咱們要對典型變量對各組原始變量解釋能力作分析，由於原始變量-->典型變量畢竟會有信息的損失。

Def：

其中，ρ(ui,xk) 是指原始變量xk與電影變量ui之間的相關係數。

注：

1）這個解釋能力是指，原始變量—>典型變量後，某個典型變量 ui 對原始變量<x1,x2,…xp>的解釋能力。由於若是採用比較少的典型變量，就會有更多的信息損失，這與PCA分析中主成分貢獻率相似。

2) 計算方法是：某個典型變量ui與全部xk(k=1 to p)的相關係數的平方和，再除以變量個數。這是方差比例。

咱們還要進行典型相關係數的檢驗。

這一步是建模必須的。

計算典型相關係數用到的是，X與X之間的協方差矩陣、X與Y之間的協方差矩陣、Y與Y之間的協方差矩陣。而這些協方差矩陣實際上是未知的，咱們只是用一些樣本對整體進行了近似。這個近似是有偏差的，須要進行有關的假設檢驗。

即：總體檢驗：檢驗X與Y之間的協方差矩陣是否爲0。如果0，則顯然X與Y不相關。不然X與Y具備相關性，即說明至少第一對典型變量之間的相關性顯著。

部分檢驗：檢驗部分典型相關係數爲0的檢驗：也就是第k對典型相關變量之間相關關係不顯著。

下面進行檢驗：

1）總體檢驗

2）部分整體典型相關係數爲零的檢驗

5 Summary：典型相關分析步驟

步驟以下：

設標準化後，X、Y增廣陣爲Z：

step1：計算原始變量X、Y增廣陣的相關係數矩陣R，而且剖分爲：，其中，R11是X的協方差矩陣，R12是X與Y的協方差矩陣。

step2：求典型相關係數以及典型變量。

　　　　

step3：進行典型相關係數λi的顯著性檢驗。有總體檢驗與部分檢驗，詳情見上。

step4：典型結構與典型冗餘分析。

這實際上是計算：

典型結構分析：其實就是X組原始變量被ui解釋分方差比例，Y組原始變量被vi解釋的方差比例

典型冗餘分析：其實就是X組原始變量被vi解釋分方差比例，Y組原始變量被ui解釋的方差比例

6. MATLAB實現。

MATLAB進行典型相關分析命令：

先查看一下Matlab help命令解釋：
canoncorr Canonical correlation analysis. [A,B] = canoncorr(X,Y) computes the sample canonical coefficients for the N-by-P1 and N-by-P2 data matrices X and Y. X and Y must have the same number of observations (rows) but can have different numbers of variables (cols). A and B are P1-by-D and P2-by-D matrices, where D = min(rank(X),rank(Y)). The jth columns of A and B contain the canonical coefficients, i.e. the linear combination of variables making up the jth canonical variable for X and Y, respectively. Columns of A and B are scaled to make COV(U) and COV(V) (see below) the identity matrix. If X or Y are less than full rank, canoncorr gives a warning and returns zeros in the rows of A or B corresponding to dependent columns of X or Y. [A,B,R] = canoncorr(X,Y) returns the 1-by-D vector R containing the sample canonical correlations. The jth element of R is the correlation between the jth columns of U and V (see below). [A,B,R,U,V] = canoncorr(X,Y) returns the canonical variables, also known as scores, in the N-by-D matrices U and V. U and V are computed as U = (X - repmat(mean(X),N,1))*A and V = (Y - repmat(mean(Y),N,1))*B. [A,B,R,U,V,STATS] = canoncorr(X,Y) returns a structure containing information relating to the sequence of D null hypotheses H0_K, that the (K+1)st through Dth correlations are all zero, for K = 0:(D-1). STATS contains seven fields, each a 1-by-D vector with elements corresponding to values of K: Wilks: Wilks' lambda (likelihood ratio) statistic
       chisq:    Bartlett's approximate chi-squared statistic for H0_K,
                 with Lawley's modification
       pChisq:   the right-tail significance level for CHISQ F: Rao's approximate F statistic for H0_K
       pF:       the right-tail significance level for F df1: the degrees of freedom for the chi-squared statistic, also the numerator degrees of freedom for the F statistic df2: the denominator degrees of freedom for the F statistic Example: load carbig; X = [Displacement Horsepower Weight Acceleration MPG]; nans = sum(isnan(X),2) > 0; [A B r U V] = canoncorr(X(~nans,1:3), X(~nans,4:5)); plot(U(:,1),V(:,1),'.'); xlabel('0.0025*Disp + 0.020*HP - 0.000025*Wgt'); ylabel('-0.17*Accel + -0.092*MPG') See also pca, manova1.
典型相關分析函數：[a,b,r,u,v,stats] = cononcorr(x,y):

param:

　　x：原始變量x矩陣，每列一個自變量指標，第i列是 xi 的樣本值

　　y：原始變量y矩陣，每列一個因變量指標，第j列是 yj 的樣本值

return:

　　a：自變量x的典型相關變量係數矩陣，每列是一組係數。

　　列數爲典型相關變量數

　　b：因變量y的典型相關變量係數矩陣，每列是一個係數

　　r：典型相關係數。即第一對<u1,v1>之間的相關係數、第二對<u2,v2>之間的相關係數…

　　u：對於X的典型相關變量的值

　　v：對於Y的典型相關變量的值

　　stats：假設檢驗的值<詳細用一下就知道了>

也可使用MATLAB按照原理直接編寫程序，一個實現的例子以下：

實現程序：

這個典型相關係數表中，第一列0.5537是第<u1,v1>的相關係數。