求解協方差矩陣

如何求協方差矩陣

一. 協方差定義

X、Y 是兩個隨機變量,X、Y 的協方差 cov(X, Y) 定義爲:函數

其中:spa

 、3d

 

. 協方差矩陣定義

矩陣中的數據按行排列與按列排列求出的協方差矩陣是不一樣的,這裏默認數據是按行排列。即每一行是一個observation(or sample),那麼每一列就是一個隨機變量。協方差對角線處的元素表示的是方差,這個關係咱們記住就好了。好比目前咱們從以前的兩個變量過渡成了三個變量,則咱們的協方差矩陣能夠寫爲:blog

從上面咱們能夠清楚的看到對角線上的數值是cov(x,x)=var(x),cov(y,y)=var(y),cov(y,y)=var(z),所以對角線處是咱們的方差,有一個函數trace()專門則用於表示提取咱們矩陣當中的對角線處的元素。下面咱們把用cov函數表示的形式變化爲更加普世的形式也就是用aij來表示咱們的每個協方差的數值。io

 

協方差矩陣:class

協方差矩陣的維度等於隨機變量的個數,即每個 observation 的維度。在某些場合前邊也會出現 1 / m,而不是 1 / (m - 1).變量

. 求解協方差矩陣的步驟

舉個例子,矩陣 X 按行排列:im

 
 

1. 求每一個維度的平均值

 
 

2. 將 X 的每一列減去平均值

 
 
其中:
 

3. 計算協方差矩陣

 
 
 
 
注意:
有時候在書上或者網上會看到這樣的公式,協方差矩陣 Σ:
 
這裏之因此會是 X * X’ 是由於原始數據集 X 是按列排列的,即:
 
 
 
備註:爲何協方差矩陣的最大特徵向量能使得偏差較小?
回答:由於協方差矩陣表示向量兩兩之間的類似度,能夠理解爲向量之間的關係信息。協方差矩陣保存的信息越多,偏差越小。怎麼保存更多信息呢?須要說明的是特徵值表明特徵向量的權重,因此挑最大的幾個特徵向量就能保存更多的信息
相關文章
相關標籤/搜索