線性相關算法
數據在一條直線附近波動,則變量間是線性相關post
非線性相關spa
數據在一條曲線附近波動,則變量間是非線性相關3d
不相關excel
數據在圖中沒有顯示任何關係,則不相關blog
N個數據 的平均值計算公式:ci
標準差表示了全部數據與平均值的平均距離,表示了數據的散度,若是標準差小,表示數據集中在平均值附近,若是標準差大則表示數據離標準差比較遠,比較分散。標準差計算公式:get
x、y兩個變量組成了笛卡爾座標系中的一個座標(x,y),這個座標標識了一個點的位置。it
各包含n個常量的X,Y兩組數據在笛卡爾座標系中以n個點來進行表示。class
相關係數用字母r來表示,表示兩組數據線性相關的程度(同時增大或減少的程度),從另外一方面度量了點相對於標準差的散佈狀況,它沒有單位。包含n個數值的X、Y兩組數據的相關係數r的計算方法:
簡單的說,就是 r=[(以標準單位表示的 x )X(以標準單位表示的 y )]的平均數
根據上面點的定義,將X、Y兩組數據的關係以點的形式在笛卡爾座標系中畫出,SD線表示了通過中心點(以數據組X、Y平均值爲座標的點),當r>0時,斜率=X的標準差/Y的標準差;當r<0時,斜率=-X的標準差/Y的標準差;的直線。一般用SD線來直觀的表示數據的走向:
一、當r<0時,SD線的斜率小於0時,則說明數據負相關,即當x增大時y減小。
二、當r>0時,SD線的斜率大於0時,則說明數據正相關,此時當x增大時y增大。
三、相關係數r的範圍在[-1,1]之間,當r=0時表示數據相關係數爲0(不相關)。當r=正負1時,表示數據負相關,此(x,y)點數據都在SD線上。
四、r的值越接近正負1說明(x,y)越靠攏SD線,說明數據相關性越強,r的值越接近0說明(x,y)點到SD線的散度越大(越分散),數據相關性越小。
迴歸方法主要描述一個變量如何依賴於另外一個變量。y對應於x的迴歸線描述了在不一樣的x值下y的平均值狀況,它是這些平均值的光滑形式,若是這些平均值恰好在一條直線上,則這些平均值恰好和迴歸線重合。經過迴歸線,咱們能夠經過x值來預測y值(已知x值下y值的平均值)。下面是y對應於x的迴歸線方程:
簡單的說,就是當x每增長1個SD,平均而言,相應的y增長r個SD。
從方程能夠看出:
一、迴歸線是一條通過點 ,斜率爲 的直線。
二、迴歸線的斜率比SD線小,當r=1或-1時,迴歸線和SD線重合。
當用迴歸線從x預測y時,實際值與預測值之間的差別叫預測偏差。而均方根偏差就是預測偏差的均方根。它度量回歸預測的精確程度。y關於x的迴歸線的均方根偏差用下面的公式進行計算:
由公式能夠看出,當r越接近1或-1時,點越彙集在迴歸線附近,均方根偏差越小;反之r越接近0時,點越分散,均方根偏差越大。
最小二乘法尋找一條直線來擬合全部的點,使得這條直線到全部的點之間的均方根偏差最小。能夠看到,當求兩個變量之間的關係時,最小二乘法求出的直線實際上就是迴歸線。只不過表述的側重點不一樣:
一、最小二乘法強調求出全部點的最佳擬合直線。
二、迴歸線則是在SD線的基礎上求出的線,表示了樣本中已知變量x的狀況下變量y的平均值。
由以上可知,一個散點圖能夠用五個統計量來描述:
一、全部點x值的平均數,描述了全部點在x軸上的中心點。
二、全部點x值的SD,描述了全部點距離x中心點的散度。
三、全部點y值的平均數,描述了全部點在y軸上的中心點。
四、全部點y值的SD,描述了全部點距離y中心點的散度。
五、相關係數r,基於標準單位,描述了全部點x值和y值之間的關係。
相關係數r將平均值、標準差、迴歸線這幾個概念聯繫起來:
一、r描述了相對於標準差,點沿SD線的羣集程度。
二、r說明了y的平均數如何的依賴於x --- x每增長1個x標準差,平均來講,y將只增長r個y標準差。
三、r經過均方根偏差公式,肯定了迴歸預測的精確度。
注意:以上相關係數、迴歸線、最小二乘法的計算要在如下兩個條件下才能成立:
一、x、y兩組樣本數據是線性的,若是不是線性的先要作轉換。
二、被研究的兩組樣本數據之間的關係必須有意義。
這些算法的實現代碼見下面的貼子: