皮爾森相關係數算法

  皮爾森相關係數(Pearson correlation coefficient)也稱皮爾森積矩相關係數(Pearson product-moment correlation coefficient) ,是一種線性相關係數。皮爾森相關係數是用來反映兩個變量線性相關程度的統計量。相關係數用r表示,其中n爲樣本量,分別爲兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的絕對值越大代表相關性越強。spa

定義orm

兩個變量之間的皮爾遜相關係數定義爲兩個變量之間的協方差和標準差的商:blog

上式定義了整體相關係數,經常使用希臘小寫字母 ρ (rho) 做爲表明符號。估算樣本的協方差和標準差,可獲得樣本相關係數(樣本皮爾遜係數),經常使用英文小寫字母 r 表明:ci

r 亦可由
樣本點的標準分數均值估計,獲得與上式等價的表達式:
其中
分別是對
樣本的標準分數、樣本平均值和樣本標準差。
 
公式詳解:
  樣本的簡單相關係數通常用r表示,其中n 爲樣本量, 分別爲兩個變量的觀測值和均值。r描述的是兩個變量間線性相關強弱的程度。r的取值在-1與+1之間,若r>0,代表兩個變量是正相關,即一個變量的值越大,另外一個變量的值也會越大;若r<0,代表兩個變量是負相關,即一個變量的值越大另外一個變量的值反而會越小。r 的絕對值越大代表相關性越強,要注意的是這裏並不存在因果關係。若r=0,代表兩個變量間不是線性相關,但有多是其餘方式的相關(好比曲線方式)
  利用樣本相關係數推斷整體中兩個變量是否相關,能夠用t 統計量對整體相關係數爲0的原假設進行檢驗。若t 檢驗顯著,則拒絕原假設,即兩個變量是線性相關的;若t 檢驗不顯著,則不能拒絕原假設,即兩個變量不是線性相關的.
 

適用範圍it

當兩個變量的標準差都不爲零時,相關係數纔有定義,皮爾遜相關係數適用於:io

(1)兩個變量之間是線性關係,都是連續數據。form

(2)兩個變量的整體是正態分佈,或接近正態的單峯分佈。class

(3)兩個變量的觀測值是成對的,每對觀測值之間相互獨立。變量

相關文章
相關標籤/搜索