相關表和相關圖可反映兩個變量之間的相互關係及其相關方向,但沒法確切地代表兩個變量之間相關的程度。相關係數是用以反映變量之間相關關係密切程度的統計指標。 從協方差出發,瞭解相關係數的真實含義和數學計算。spa
指望值分別爲E[X]與E[Y]的兩個實隨機變量X與Y之間的協方差Cov(X,Y)定義爲:get
從直觀上來看,協方差表示的是兩個變量整體偏差的指望。數學
若是兩個變量的變化趨勢一致,也就是說若是其中一個大於自身的指望值時另一個也大於自身的指望值,那麼兩個變量之間的協方差就是正值;it
若是兩個變量的變化趨勢相反,即其中一個變量大於自身的指望值時另一個卻小於自身的指望值,那麼兩個變量之間的協方差就是負值。io
說的簡單一些,協方差表示了兩個變量同向變化的方向(同向仍是反向)和幅度,但存在一個問題,例以下圖(來自知乎),兩種狀況下,兩個變量變化的方向和單一變量變化的相對幅度是同樣的,但協方差卻差異很大(狀況一的協方差≈15428,狀況二的協方差≈1.5428),緣由僅僅是狀況二中的紅色變量的取值範圍小了不少。class
彷佛有點不合理,這兩種狀況下他們的相關程度咱們認爲應該是同樣的;變量
問題在於兩個變量中的一個的取值範圍變小了,同時也注意到,他們的協方差差異恰好是紅色變量變小的倍數,因此咱們想衡量兩個變量之間的相關程度,應該引入相似標準化相似的操做,這就是協方差到相關係數的天然需求。im
相關係數是研究變量之間線性相關程度的量統計
其中,Cov(X,Y)爲X與Y的協方差,Var[X]爲X的方差,Var[Y]爲Y的方差margin
我對相關係數的理解就是協方差的標準化,協方差的正負符號代表了兩個變量變化的大致方向(同向仍是反向),而標準化則是去除由於取值範圍帶來的幅度的變化
事實上,通過標準化的協方差(也就是相關係數)的取值在[-1,1]之間,-1表示徹底負相關,1表示徹底正相關,0表示不相關
相關係數的取值範圍證實參見施瓦茨不等式