首先給出幾個定義:函數
指望: 反應了函數f(x)在某個分佈P(x)下的平均表現, 記爲: $E_{x \sim P}[f(x)]=\int{p(x)f(x)dx}$
協方差: 反應兩個變量之間線性相關的強度,記爲$Cov(f(x),g(x))= E[(f(x)-E[f(x)])(g(x)-E(g(x)))]$
關於協方差的特性:spa
相關係數$\rho_{xy}$: 將每一個變量歸一化, 之衡量變量間的相關性, 不關注變量尺度大小, 公式以下:
$$\rho_{xy} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}$$3d
通俗地講, 協方差能夠理解爲:兩個變量在變化過程當中是同方向變化?仍是反方向變化?同向或反向程度如何?
你變大,同時我也變大,說明兩個變量是同向變化的,這時協方差就是正的。
你變大,同時我變小,說明兩個變量是反向變化的,這時協方差就是負的。
從數值來看,協方差的數值越大,兩個變量同向程度也就越大。反之亦然。blog
協方差公式化簡一下: $Cov(X,Y) = E[(X-\mu _x)(Y-\mu _y)]$
若是有X,Y兩個變量,每一個時刻的「X值與其均值之差」乘以「Y值與其均值之差」獲得一個乘積,再對這每時刻的乘積求和並求出均值(實際上是求「指望」,但就不引伸太多新概念了,簡單認爲就是求均值了.圖片
下面舉個例子來講明吧:ip
好比有兩個變量X,Y,觀察t1-t7(7個時刻)他們的變化狀況。
簡單作了個圖:分別用紅點和綠點表示X、Y,橫軸是時間。能夠看到X,Y均圍繞各自的均值運動,而且很明顯是同向變化的。rem
這時,咱們發現每一時刻$X-\mu _{x}$的值與$Y-\mu _{y}$的值的「正負號」必定相同(以下圖:好比t1時刻,他們同爲正,t2時刻他們同爲負):it
因此,像上圖那樣,當他們同向變化時,$X-\mu _{x}$與$Y-\mu _{y}$的乘積爲正。這樣,當你把t1-t7時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積加在一塊兒,求平均後也就是正數了。class
若是反向運動呢?
很明顯,$X-\mu _{x}$的值與$Y-\mu _{y}$的值的「正負號」必定相反,因而$X-\mu _{x}$與$Y-\mu _{y}$的乘積就是負值了。這樣當你把t1-t7時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積加在一塊兒,求平均的時候也就是負數了。變量
固然上面說的是兩種特殊狀況,不少時候X,Y的運動是不規律的,好比:
這時,極可能某一時刻$X-\mu _{x}$的值與$Y-\mu _{y}$的值乘積爲正,另一個時刻$X-\mu _{x}$的值與$Y-\mu _{y}$的值乘積爲負。
這時,極可能某一時刻$X-\mu _{x}$的值與$Y-\mu _{y}$的值乘積爲正,另一個時刻$X-\mu _{x}$的值與$Y-\mu _{y}$的值乘積爲負。
因此,t1-t7時刻中,$X-\mu _{x}$與$Y-\mu _{y}$的乘積爲正的越多,說明同向變化的次數越多,也即同向程度越高。反之亦然。
總結一下,若是協方差爲正,說明X,Y同向變化,協方差越大說明同向程度越高;若是協方差爲負,說明X,Y反向運動,協方差越小說明反向程度越高。
那若是X,Y同向變化,但X大於均值,Y小於均值,那$X-\mu _{x}$與$Y-\mu _{y}$的乘積爲負值啊?這不是矛盾了嗎?
這種狀況是有可能出現的,好比:
能夠看到,t1時刻,$X-\mu _{x}$與$Y-\mu _{y}$的符號相反,他們的乘積爲負值。
可是,整體看,這兩個變量的協方差仍然是正的,由於你還要計算t2,t3……t7時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積,而後再把這7個時刻的乘積求和作均值,纔是最後X,Y的協方差。1個負、6個正,顯然最後協方差很大可能性是正的。
因此t1時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積爲負值,並不能說明他們反向運動,要結合總體的狀況來判斷。
那麼你可能又要問了,既然都是同向變化,那t1時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積爲負值、其餘時刻乘積爲正的這種狀況,與,t1-t7時刻$X-\mu _{x}$與$Y-\mu _{y}$的乘積均爲正值的狀況,到底有什麼差別呢?這點其實前面也解釋過了,差別就是:第一種狀況的同向程度不如第二種狀況的同向程度大(第一種狀況6正1負,第二種狀況7正,因此第一種狀況的協方差小於第二種狀況的協方差,第一種狀況X,Y變化的同向程度要小於第二種狀況)。
另外,若是你還鑽牛角尖,說若是t1,t2,t3……t7時刻X,Y都在增大,並且X都比均值大,Y都比均值小,這種狀況協方差不就是負的了?7個負值求平均確定是負值啊?可是X,Y都是增大的,都是同向變化的,這不就矛盾了?
這個更好解釋了:這種狀況不可能出現!
由於,你的均值算錯了……
X,Y的值應該均勻的分佈在均值兩側纔對,不可能都比均值大,或都比均值小。
因此,實際它的圖應該是下面這樣的:
發現沒有,又變成$X-\mu _{x}$與$Y-\mu _{y}$的符號相同的狀況了~有沒有種被大天然戰勝的感受~
好了,如今,對於協方差應該有點感受了吧?
對於相關係數,咱們從它的公式入手。通常狀況下,相關係數的公式爲:
$$\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}$$
相關係數也能夠當作協方差:一種剔除了兩個變量量綱影響、標準化後的特殊協方差。
既然是一種特殊的協方差,那它:
比較抽象,下面仍是舉個例子來講明:
首先,仍是承接上文中的變量X、Y變化的示意圖(X爲紅點,Y爲綠點),來看兩種狀況:
很容易就能夠看出以上兩種狀況X,Y都是同向變化的,而這個「同向變化」,有個很是顯著特徵:
X、Y同向變化的過程,具備極高的類似度!不管第一仍是第二種狀況下,都是:t1時刻X、Y都大於均值,t2時刻X、Y都變小且小於均值,t3時刻X、Y繼續變小且小於均值,t4時刻X、Y變大但仍小於均值,t5時刻X、Y變大且大於均值……
但是,計算一下他們的協方差,
協方差差出了一萬倍,只能從兩個協方差都是正數判斷出兩種狀況下X、Y都是同向變化,可是,一點也看不出兩種狀況下X、Y的變化都具備類似性這一特色。
這是爲何呢?
由於以上兩種狀況下,在X、Y兩個變量同向變化時,X變化的幅度不一樣,這樣,兩種狀況的協方差更多的被變量的變化幅度所影響了。
因此,爲了能準確的研究兩個變量在變化過程當中的類似程度,咱們就要把變化幅度對協方差的影響,從協方差中剔除掉。因而,相關係數就橫空出世了,就有了最開始相關係數的公式:
$$\rho = \frac{Cov(X,Y}{\sigma_X\sigma_Y}$$
那麼爲何要經過除以標準差的方式來剔除變化幅度的影響呢?我們簡單從標準差公式看一下:
$$\sigma_X=\sqrt{E((X-\mu_x)^2)}$$
從公式能夠看出,標準差計算方法爲,每一時刻變量值與變量均值之差再平方,求得一個數值,再將每一時刻這個數值相加後求平均,再開方。
「變量值與變量均值之差」X-mu _{x}是什麼呢?就是偏離均值的幅度:
那爲什麼要對它作平方呢?由於有時候變量值與均值是反向偏離的(見下圖),$X-\mu _{x}$是個負數,平方後,就能夠把負號消除了。
這樣在後面求平均時,每一項數值纔不會被正負抵消掉,最後求出的平均值才能更好的體現出每次變化偏離均值的狀況。
固然,最後求出平均值後並無結束,由於剛纔爲了消除負號,把$X-\mu _{x}$進行了平方,那最後確定要把求出的均值開方,將這個偏離均值的幅度還原回原來的量級。因而就有了下面標準差的公式:
$$\sigma_X=\sqrt{E((X-\mu_x)^2)}$$
因此標準差描述了變量在總體變化過程當中偏離均值的幅度。協方差除以標準差,也就是把協方差中變量變化幅度對協方差的影響剔除掉,這樣協方差也就標準化了,它反應的就是兩個變量每單位變化時的狀況。這也就是相關係數的公式含義了。
同時,你能夠反過來想象一下:既然相關係數是協方差除以標準差,那麼,當X或Y的波動幅度變大的時候,它們的協方差會變大,標準差也會變大,這樣相關係數的分子分母都變大,其實變大的趨勢會被抵消掉,變小時也亦然。因而,很明顯的,相關係數不像協方差同樣能夠在 $+\infty 到-\infty $ 間變化,它只能在+1到-1之間變化(相關係數的取值範圍在+1到-1之間變化能夠經過施瓦茨不等式來證實.
總結一下,對於兩個變量X、Y:
有了上面的背景,咱們再回到最初的變量X、Y的例子中,能夠先看一下第一種狀況的相關係數:
說明第一種狀況下,X的變化與Y的變化具備很高的類似度,並且已經接近徹底正相關了,X、Y幾乎就是線性變化的。
那第二種狀況呢?
說明第二種狀況下,雖然X的變化幅度比第一種狀況X的變化幅度小了10000倍,可是絲毫沒有改變「X的變化與Y的變化具備很高的類似度」這一結論。同時,因爲第一種、第二種狀況的相關係數是相等的,所以在這兩種狀況下,X、Y的變化過程有着一樣的類似度。