線性相關線性趨勢之類的算法

相關性

線性相關算法

數據在一條直線附近波動,則變量間是線性相關post

非線性相關spa

數據在一條曲線附近波動,則變量間是非線性相關3d

不相關excel

數據在圖中沒有顯示任何關係,則不相關blog

image.png

image.png

平均值

N個數據 的平均值計算公式:ci

image.png

標準差

標準差表示了全部數據與平均值的平均距離,表示了數據的散度,若是標準差小,表示數據集中在平均值附近,若是標準差大則表示數據離標準差比較遠,比較分散。標準差計算公式:get

image.png

x、y兩個變量組成了笛卡爾座標系中的一個座標(x,y),這個座標標識了一個點的位置。it

各包含n個常量的X,Y兩組數據在笛卡爾座標系中以n個點來進行表示。class

相關係數

相關係數用字母r來表示,表示兩組數據線性相關的程度(同時增大或減少的程度),從另外一方面度量了點相對於標準差的散佈狀況,它沒有單位。包含n個數值的X、Y兩組數據的相關係數r的計算方法:

image.png

簡單的說,就是 r=[(以標準單位表示的 x )X(以標準單位表示的 y )]的平均數

根據上面點的定義,將X、Y兩組數據的關係以點的形式在笛卡爾座標系中畫出,SD線表示了通過中心點(以數據組X、Y平均值爲座標的點),當r>0時,斜率=X的標準差/Y的標準差;當r<0時,斜率=-X的標準差/Y的標準差;的直線。一般用SD線來直觀的表示數據的走向:

一、當r<0時,SD線的斜率小於0時,則說明數據負相關,即當x增大時y減小。

二、當r>0時,SD線的斜率大於0時,則說明數據正相關,此時當x增大時y增大。

三、相關係數r的範圍在[-1,1]之間,當r=0時表示數據相關係數爲0(不相關)。當r=正負1時,表示數據負相關,此(x,y)點數據都在SD線上。

四、r的值越接近正負1說明(x,y)越靠攏SD線,說明數據相關性越強,r的值越接近0說明(x,y)點到SD線的散度越大(越分散),數據相關性越小。

迴歸方法主要描述一個變量如何依賴於另外一個變量。y對應於x的迴歸線描述了在不一樣的x值下y的平均值狀況,它是這些平均值的光滑形式,若是這些平均值恰好在一條直線上,則這些平均值恰好和迴歸線重合。經過迴歸線,咱們能夠經過x值來預測y值(已知x值下y值的平均值)。下面是y對應於x的迴歸線方程:

image.png

簡單的說,就是當x每增長1個SD,平均而言,相應的y增長r個SD。

從方程能夠看出:

一、迴歸線是一條通過點 ,斜率爲 的直線。

二、迴歸線的斜率比SD線小,當r=1或-1時,迴歸線和SD線重合。

當用迴歸線從x預測y時,實際值與預測值之間的差別叫預測偏差。而均方根偏差就是預測偏差的均方根。它度量回歸預測的精確程度。y關於x的迴歸線的均方根偏差用下面的公式進行計算:

image.png

由公式能夠看出,當r越接近1或-1時,點越彙集在迴歸線附近,均方根偏差越小;反之r越接近0時,點越分散,均方根偏差越大。

最小二乘法尋找一條直線來擬合全部的點,使得這條直線到全部的點之間的均方根偏差最小。能夠看到,當求兩個變量之間的關係時,最小二乘法求出的直線實際上就是迴歸線。只不過表述的側重點不一樣:

一、最小二乘法強調求出全部點的最佳擬合直線。

二、迴歸線則是在SD線的基礎上求出的線,表示了樣本中已知變量x的狀況下變量y的平均值。

由以上可知,一個散點圖能夠用五個統計量來描述:

一、全部點x值的平均數,描述了全部點在x軸上的中心點。

二、全部點x值的SD,描述了全部點距離x中心點的散度。

三、全部點y值的平均數,描述了全部點在y軸上的中心點。

四、全部點y值的SD,描述了全部點距離y中心點的散度。

五、相關係數r,基於標準單位,描述了全部點x值和y值之間的關係。


相關係數r將平均值、標準差、迴歸線這幾個概念聯繫起來:

一、r描述了相對於標準差,點沿SD線的羣集程度。

二、r說明了y的平均數如何的依賴於x --- x每增長1個x標準差,平均來講,y將只增長r個y標準差。

三、r經過均方根偏差公式,肯定了迴歸預測的精確度。

注意:以上相關係數、迴歸線、最小二乘法的計算要在如下兩個條件下才能成立:

一、x、y兩組樣本數據是線性的,若是不是線性的先要作轉換。

二、被研究的兩組樣本數據之間的關係必須有意義。

 

這些算法的實現代碼見下面的貼子:

 

C# 計算線性關係kb值、R平方,相似於excel的趨勢線線性關係功能

相關文章
相關標籤/搜索