1、預備知識介紹spa
爲何須要統計量?3d
統計量:描述數據特徵blog
1. 集中趨勢衡量ip
1.1 均值(平均數,平均值)(mean)input
1.2 中位數(median):將數據中的各個數值按照大小順序排列,居於中間位置的變量。io
當n爲奇數時,直接取位置處於中間的變量class
當n爲偶數時,取中間兩個量的平均值變量
1.3 衆數(mode):數據中出現次數最多的數im
2.離散程度衡量 統計
2.1 方差(variance)
2.2 標準差(standard deviation)
2、介紹:迴歸(regression) 分類(classification)
迴歸: Y變量爲連續數值型(continuous numerical variable)
如:房價、人數、降雨量
分類: Y變量爲類別型(categorical ariable)
如:顏色類別、電腦品牌、有無信譽
3、簡單線性迴歸(Simple Linear Regression)
不少作決定過程一般是根據兩個或者多個變量之間的關係
迴歸分析(regression analysis)用來創建方程模擬兩個或者多個變量之間如何關聯
被預測的變量叫作因變量(dependent variable),y 輸出(output)
被用來進行預測的變量叫作自變量(independent variable),x 輸入(input)
4、簡單線性迴歸介紹
簡單線性迴歸包含一個自變量(x)和一個因變量(y)
這兩個變量的關係經過一條直線來模擬
若是包含兩個以上的自變量,則成爲多元迴歸分析(multiple regression)
5、簡單線性迴歸模型
被用來描述因變量(y)和自變量(x)以及誤差(error)之間關係的方程叫作迴歸模型
簡單線性迴歸模型:
其中:爲參數,爲誤差。
6、簡單線性迴歸方程(模型求指望)
這個方程對應的圖像是一條直線,稱爲迴歸線。
其中:是迴歸線的截距
是迴歸線的斜率
是在一個給定x值下y的指望值(均值)
注意:這裏就沒有了,由於服從正態分佈,指望爲0
7、正向線性關係
8、負向線性關係
9、無關係
10、估計的簡單線性迴歸方程
這個方程叫作估計線性方程(estimated regression line)
其中:是估計線性方程的截距
是估計線性方程的斜率
是在自變量x等於一個給定值的時候,y的估計值
11、線性迴歸流程
12、關於誤差的假定
是一個隨機的變量,均值爲0
方差對於全部的自變量x是同樣的
值獨立的
知足正態分佈