線性相關性度量

1. 相關性度量

爲了定量的描述線性相關性,統計學奠定人K. Pearson提出了Pearson相關係數、心理學家CE. Spearman提出了Spearman等級相關係數、統計學家M. Kendall提出了Kendall秩相關係數。這三種相關係數最具備表明性、應用也最普遍,它們既有聯繫又有不一樣,分別有不一樣的適用場景。html

Pearson相關係數

Pearson相關係數 (Pearson correlation coefficient)用於度量兩個變量X、Y的相關性(線性相關),定義以下:
\[ r = \frac{\sum_{i=1}^n (X_i - \overline{X}) (Y_i - \overline{Y})}{\sqrt{\sum_{i}(X_i - \overline{X})^2} \sqrt{\sum_{i}(Y_i - \overline{Y})^2}} \]
容易證實Pearson相關係數的取值範圍爲[-1, 1]。spa

  • 若爲1意味着X和Y的數據點基本落在一條直線上,且Y隨X的增長而增長,換言之X和Y能夠由直線方程來描述(線性正相關);
  • 若爲-1則表示X和Y線性負相關,Y隨X的增長而減小;
  • 若爲0,則說明兩者沒有線性關係。

下圖給出了當Pearson相關係數爲不一樣值時X和Y的散點圖(如下三張圖片均來自於Wikipedia):
3d

Pearson相關係數有一個重要的數學特性是,因兩個變量的位置和尺度的變化並不會引發該係數的改變,即它該變化的不變量 (由符號肯定)。也就是說,咱們若是把X移動到a + bX和把Y移動到c + dY,其中a、b、c和d是常數,並不會改變兩個變量的相關係數(該結論在整體和樣本Pearson相關係數中都成立)。htm

Spearman相關係數

Spearman相關係數實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關係數:
\[ \rho = \frac{\sum_{i=1} (x_i - \overline{x}) (y_i - \overline{y})}{\sqrt{\sum_{i}(x_i - \overline{x})^2} \sqrt{\sum_{i}(y_i - \overline{y})^2}} \]blog

相較於Pearson相關係數,Spearman相關係數更能描述兩個變量之間的單調性的相關性,對於樣本中的顯著離羣點更爲不敏感。好比,下圖中變量X和Y的Pearson相關係數、Spearman相關係數分別爲0.88與1,顯然Spearman相關係數更好地刻畫了兩個變量增加趨勢的相關性。
圖片

下圖更好地表現出了Spearman相關係數的抗噪音性:
ip

Kendall相關係數

Kendall相關係數是另外一種等級相關統計量,其主要思想是根據兩個變量序對的一致性 (concordance)來判斷相關性的。一致性序對 (concordant pair)定義以下:若是變量對\((X_i, Y_i)\)\((X_j, Y_j)\)\(i \neq j\)知足當\(X_i < X_j\)\(Y_i < Y_j\),或者當\(X_i > X_j\)\(Y_i > Y_j\)。反之,則爲非一致性序對。那麼,Kendall相關係數的定義以下:
\[ \tau = \frac{P - Q}{n(n-1)/2} \]
其中,\(P\)爲一致性序對的個數,\(Q\)爲非一致性序對個數,則\(P + Q = n(n-1/2)\),所以上式可改寫爲
\[ \tau = \frac{4P}{n(n-1)/2} -1 \]
顯然\(\tau\)的取值範圍爲[-1, 1],ci

  • 當等於1時,表示兩個變量擁有一致的等級相關性;
  • 當等於-1時,表示兩個變量擁有徹底相反的等級相關性;
  • 當等於0時,兩個變量相互獨立。

下表給出了UV分別與PV、活躍用戶數、新增內容用戶數的三種相關性度量:get

指標 Pearson相關係數 Spearman相關係數 Kendall相關係數
PV 0.85684 0.95513 0.84884
活躍用戶數 0.88462 0.94131 0.83403
新增內容用戶數 0.32988 0.38259 0.25761

能夠發現:三種度量在這三對變量上沒有明顯的優劣;PV、活躍用戶數都與UV成正向相關,且新增內容用戶數與UV沒有明顯的相關性——這一點在變量的散點圖中能夠獲得印證。數學

2. 參考資料

[1] 樊嶸, 孟大志, and 徐大舜. "統計相關性分析方法研究進展." 數學建模及其應用 3.1(2014).
[2] 王鵬, 數據相關性挖掘大講堂:(一) 線性相關評價方法.

相關文章
相關標籤/搜索