爲了定量的描述線性相關性,統計學奠定人K. Pearson提出了Pearson相關係數、心理學家CE. Spearman提出了Spearman等級相關係數、統計學家M. Kendall提出了Kendall秩相關係數。這三種相關係數最具備表明性、應用也最普遍,它們既有聯繫又有不一樣,分別有不一樣的適用場景。html
Pearson相關係數 (Pearson correlation coefficient)用於度量兩個變量X、Y的相關性(線性相關),定義以下:
\[ r = \frac{\sum_{i=1}^n (X_i - \overline{X}) (Y_i - \overline{Y})}{\sqrt{\sum_{i}(X_i - \overline{X})^2} \sqrt{\sum_{i}(Y_i - \overline{Y})^2}} \]
容易證實Pearson相關係數的取值範圍爲[-1, 1]。spa
下圖給出了當Pearson相關係數爲不一樣值時X和Y的散點圖(如下三張圖片均來自於Wikipedia):
3d
Pearson相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引發該係數的改變,即它該變化的不變量 (由符號肯定)。也就是說,咱們若是把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數(該結論在整體和樣本Pearson相關係數中都成立)。htm
Spearman相關係數實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關係數:
\[ \rho = \frac{\sum_{i=1} (x_i - \overline{x}) (y_i - \overline{y})}{\sqrt{\sum_{i}(x_i - \overline{x})^2} \sqrt{\sum_{i}(y_i - \overline{y})^2}} \]blog
相較於Pearson相關係數,Spearman相關係數更能描述兩個變量之間的單調性的相關性,對於樣本中的顯著離羣點更爲不敏感。好比,下圖中變量X和Y的Pearson相關係數、Spearman相關係數分別爲0.88與1,顯然Spearman相關係數更好地刻畫了兩個變量增加趨勢的相關性。
圖片
下圖更好地表現出了Spearman相關係數的抗噪音性:
ip
Kendall相關係數是另外一種等級相關統計量,其主要思想是根據兩個變量序對的一致性 (concordance)來判斷相關性的。一致性序對 (concordant pair)定義以下:若是變量對\((X_i, Y_i)\)、\((X_j, Y_j)\)且\(i \neq j\)知足當\(X_i < X_j\)時\(Y_i < Y_j\),或者當\(X_i > X_j\)時\(Y_i > Y_j\)。反之,則爲非一致性序對。那麼,Kendall相關係數的定義以下:
\[ \tau = \frac{P - Q}{n(n-1)/2} \]
其中,\(P\)爲一致性序對的個數,\(Q\)爲非一致性序對個數,則\(P + Q = n(n-1/2)\),所以上式可改寫爲
\[ \tau = \frac{4P}{n(n-1)/2} -1 \]
顯然\(\tau\)的取值範圍爲[-1, 1],ci
下表給出了UV分別與PV、活躍用戶數、新增內容用戶數的三種相關性度量:get
指標 | Pearson相關係數 | Spearman相關係數 | Kendall相關係數 |
---|---|---|---|
PV | 0.85684 | 0.95513 | 0.84884 |
活躍用戶數 | 0.88462 | 0.94131 | 0.83403 |
新增內容用戶數 | 0.32988 | 0.38259 | 0.25761 |
能夠發現:三種度量在這三對變量上沒有明顯的優劣;PV、活躍用戶數都與UV成正向相關,且新增內容用戶數與UV沒有明顯的相關性——這一點在變量的散點圖中能夠獲得印證。數學
[1] 樊嶸, 孟大志, and 徐大舜. "統計相關性分析方法研究進展." 數學建模及其應用 3.1(2014).
[2] 王鵬, 數據相關性挖掘大講堂:(一) 線性相關評價方法.