從統計看機器學習(一) 一元線性迴歸

  從統計學的角度來看,機器學習大多的方法是統計學中分類與迴歸的方法向工程領域的推廣。安全

  「迴歸」(Regression)一詞的濫觴是英國科學家Francis Galton(1822-1911)在1886年的論文[1]研究孩子身高與父母身高之間的關係。觀察1087對夫婦後,得出成年兒子身高=33.73+0.516*父母平均身高(以英寸爲單位).他發現孩子的身高與父母的身高相比更加溫和:若是父母均很是高,那麼孩子身高更傾向於很高但比父母矮;若是父母均很是矮,那麼孩子身高更傾向於很矮但比父母高。這個發現被他稱做"迴歸到均值"(regression to the mean).這也說明了的迴歸模型是軟模型,迴歸模型更多的刻畫了事物間的相關性而非因果性,它並不像物理模型或是一些函數(例如開普勒行星運動定律)那樣嚴格苛刻。機器學習

1.從一元線性迴歸提及函數

  咱們判斷體重是否合理時,卻要先量量本身的身高。由於不管在生理角度仍是審美角度,體重與身高是有關係的。一般可認爲人體是均勻的,即身高與體重間的關係是線性的,那麼咱們無非但願創建一個一元線性迴歸模型學習

y=β01x+ε,
優化

x是當前的身高、ε是偏差項,β0與β1是兩個常數,一般認爲每一個身高下的ε都是獨立的,且服從均值爲0,方差爲σ2的正態分佈,記做ε-i.i.d~N(0,σ2).因爲存在偏差,當前身高x下的體重y,記做y|x,一樣存在y|x~N(β01x,σ2),所以咱們將本身的身高x帶入,就能夠獲得該身高下體重均值,而且有99.74%的把握認爲該身高下,體重應該在(β01x-3σ,β01x+3σ)之間。固然,若是偏離了這個區間,體重就是不標準的,可是,這也要求σ的值不能太大。
spa

  一元線性迴歸就是要經過樣本數據估計出β0與β1這兩個常數的取值。固然,這是個仁者見仁、智者見智的問題,體重偏瘦的人爲了保持身材,不但願有胖子的數據干擾模型;胖子會爲了控制體重僅選擇身高-體重最標準的人數據。固然,考慮女生身高與體重關係時選擇男生的數據也是不合理的。咱們依據本身的標準,選擇不一樣身高下n我的的身高-體重數據(x1, y1), (x2, y2) ,…, (xn, yn),用最小二乘法獲得β0、β1的估計值:blog

因爲樣本數據是咱們按照規則挑選出來的,能夠認爲幾乎不存在噪聲數據,即σ的值不會太大,所以,當前身高下標準的體重範圍也會縮小,使得模型更加精準有效。這樣使用最小二乘法獲得經驗迴歸方程,即獲得這樣的一條直線ci

是安全的。經驗迴歸方程對樣本中的任意的身高xi的都能給出體重的估計值,體重的真實值與估計值的差稱爲真實的殘差it

因爲殘差存在正負,爲了累計殘差的效果,將所有樣本點的殘差進行平方再求和就獲得了殘差平方和。最小二乘法就是求解讓殘差平方和達到最小的優化問題。最小二乘法是讓經驗迴歸模型對全體樣本的衝突達到最小,即便經驗迴歸模型不通過樣本中的任意一個點,但它會通過樣本的均值點io

2.模型參數的估計過程

3.最小二乘估計的性質

首先,最小二乘估計是線性的。β01的估計值是y1,y2,…,yn的線性組合。同時,該估計是無偏的,即β01的估計值的指望分別與β01相同。

考慮模型是否有效,咱們就要求估計值的方差

綜上,對於給定的x0,y0的估計值服從與如下正態分佈

  這說明了在經驗迴歸模型中,不一樣xi的估計值是無偏的,但方差大小通常不一樣。最小二乘法是惟一方差最小的無偏估計,也就是說,在全體的無偏模型中,最小二乘法的估計效果是最好的。從y0的估計值分佈中咱們能夠看出,若是想減少模型的方差,就要擴大樣本容量,即增大n的值。同時,儘量使樣本的分散以增大Lxx.回到上面的體重-身高建模問題,若是選擇不一樣身高、相同性別且體重-身高比例均爲標準的人,那麼運用最小二乘法很容易估計出該性別下最標準體重-身高的線性關係。

 

[1]Regression towards mediocrity in hereditary stature. Francis Galton, Journal of the Anthropological Institute, 1886, 15: 246 – 263

相關文章
相關標籤/搜索