線性相關線性趨勢之類的算法

時間 2019-11-06

標籤線性相關趨勢之類算法欄目應用數學简体版

原文原文鏈接

平均值

N個數據的平均值計算公式：ci

標準差

標準差表示了全部數據與平均值的平均距離，表示了數據的散度，若是標準差小，表示數據集中在平均值附近，若是標準差大則表示數據離標準差比較遠，比較分散。標準差計算公式：get

x、y兩個變量組成了笛卡爾座標系中的一個座標(x,y)，這個座標標識了一個點的位置。it

各包含n個常量的X,Y兩組數據在笛卡爾座標系中以n個點來進行表示。class

相關係數

相關係數用字母r來表示，表示兩組數據線性相關的程度（同時增大或減少的程度），從另外一方面度量了點相對於標準差的散佈狀況，它沒有單位。包含n個數值的X、Y兩組數據的相關係數r的計算方法：

簡單的說，就是 r=[(以標準單位表示的 x )X(以標準單位表示的 y )]的平均數

根據上面點的定義，將X、Y兩組數據的關係以點的形式在笛卡爾座標系中畫出，SD線表示了通過中心點（以數據組X、Y平均值爲座標的點），當r>0時，斜率=X的標準差/Y的標準差；當r<0時，斜率=-X的標準差/Y的標準差；的直線。一般用SD線來直觀的表示數據的走向：

一、當r<0時,SD線的斜率小於0時，則說明數據負相關，即當x增大時y減小。

二、當r>0時，SD線的斜率大於0時，則說明數據正相關，此時當x增大時y增大。

三、相關係數r的範圍在[-1,1]之間，當r=0時表示數據相關係數爲0(不相關)。當r=正負1時，表示數據負相關，此(x,y)點數據都在SD線上。

四、r的值越接近正負1說明(x,y)越靠攏SD線，說明數據相關性越強，r的值越接近0說明(x,y)點到SD線的散度越大（越分散），數據相關性越小。

迴歸方法主要描述一個變量如何依賴於另外一個變量。y對應於x的迴歸線描述了在不一樣的x值下y的平均值狀況，它是這些平均值的光滑形式，若是這些平均值恰好在一條直線上，則這些平均值恰好和迴歸線重合。經過迴歸線，咱們能夠經過x值來預測y值（已知x值下y值的平均值）。下面是y對應於x的迴歸線方程：

簡單的說，就是當x每增長1個SD，平均而言，相應的y增長r個SD。

從方程能夠看出：

一、迴歸線是一條通過點，斜率爲的直線。

二、迴歸線的斜率比SD線小，當r=1或-1時，迴歸線和SD線重合。

當用迴歸線從x預測y時，實際值與預測值之間的差別叫預測偏差。而均方根偏差就是預測偏差的均方根。它度量回歸預測的精確程度。y關於x的迴歸線的均方根偏差用下面的公式進行計算:

由公式能夠看出，當r越接近1或-1時，點越彙集在迴歸線附近，均方根偏差越小；反之r越接近0時，點越分散，均方根偏差越大。

最小二乘法尋找一條直線來擬合全部的點，使得這條直線到全部的點之間的均方根偏差最小。能夠看到，當求兩個變量之間的關係時，最小二乘法求出的直線實際上就是迴歸線。只不過表述的側重點不一樣：

一、最小二乘法強調求出全部點的最佳擬合直線。

二、迴歸線則是在SD線的基礎上求出的線，表示了樣本中已知變量x的狀況下變量y的平均值。

由以上可知，一個散點圖能夠用五個統計量來描述：

一、全部點x值的平均數，描述了全部點在x軸上的中心點。

二、全部點x值的SD,描述了全部點距離x中心點的散度。

三、全部點y值的平均數，描述了全部點在y軸上的中心點。

四、全部點y值的SD,描述了全部點距離y中心點的散度。

五、相關係數r，基於標準單位，描述了全部點x值和y值之間的關係。

相關係數r將平均值、標準差、迴歸線這幾個概念聯繫起來：

一、r描述了相對於標準差，點沿SD線的羣集程度。

二、r說明了y的平均數如何的依賴於x --- x每增長1個x標準差，平均來講，y將只增長r個y標準差。

三、r經過均方根偏差公式，肯定了迴歸預測的精確度。

注意：以上相關係數、迴歸線、最小二乘法的計算要在如下兩個條件下才能成立：

一、x、y兩組樣本數據是線性的，若是不是線性的先要作轉換。

二、被研究的兩組樣本數據之間的關係必須有意義。

這些算法的實現代碼見下面的貼子：

C# 計算線性關係kb值、R平方，相似於excel的趨勢線線性關係功能

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。