普通最小二乘法(ordinary least squares, OLS)是線性迴歸預測問題中一個很重要的概念,在 Introductory Econometrics A Modern Approach (Fourth Edition) 第2章 簡單迴歸模型 中,花了很詳細的篇幅對此做出介紹。應聘數據挖掘崗位,就有考到對普通最小二乘法的推導證實。最小二乘法十分有用,例如能夠用來作推薦系統、資金流動預測等。函數
求和性質,具體能夠參考Introductory Econometrics A Modern Approach (Fourth Edition) 一書(計量經濟學導論,第4版,傑弗裏·M·伍德里奇 著)的附錄A。spa
有了上述推導證實,普通最小二乘法通常形式能夠寫成(字母蓋小帽表示估計值,具體參考應用機率統計):it
接下來簡單地介紹幾個重要概念,並在下一章節給出最小二乘法的無偏估計。數據挖掘
記第i 次觀測殘差(residual)是yi 的實際值與其擬合值之差:io
其中SST=SSE+SSR。ast
擬合優度,有時又稱「斷定係數」,迴歸的R2(R-squared),用來判斷直線擬合效果:變量
當R2 = 1時稱爲完美擬合,當R2 = 1時稱爲糟糕擬合,最理想的觀測是,第i 次狀況 殘差u=0。im
事實上,R2不因y 或x 的單位變化而變化。統計
零條件均值,指給定解釋變量的任何值,偏差的指望值爲零。換言之,即 E(u|x)=0。數據
咱們追求零條件均值,獲得OLS 估計量的無偏估計:
其中,
如今咱們能夠看到,β1 的估計量等於整體斜率β1 加上偏差 { u1, u2, ..., un }的一個線性組合。
線性迴歸問題中,「線性」的含義是指被估計參數β1 和β2 是線性相關的,而不關心解釋變量與被解釋變量以何種形式出現,例如y = kx + b,log(y) = kx + b,log(y) = klog(x) + b,etc. 下面列舉一些經常使用的曲線方程:
一、雙曲線 1/y = a + b/x
令y'=1/y,x'=1/x,則有y'=a+bx'
二、冪函數曲線y=axb
令y'=lny,x'=lnx,a'=lna,則有y'=a' +bx'
三、指數函數曲線y=aebx
令y'=lny,x'=x,a'=a,則有y'=a'+b x'
四、負指數函數曲線y=aeb/x(同上)
五、對數函數y=a+blnx
令y'=y,x'=lnx,則有y'=a+bx'
六、S型(Logistic,邏輯斯蒂迴歸)曲線y=K/(1+Ae-λx)
令y'=ln((K-y)/y),a=lnA,則有y'=a-λx
多重回歸研究的是變量y 與可控變量x1,x2,...,xk 之間的線性關係,假設
根據線性代數,則有
獲得
與普通最小二乘法推導證實類似,能夠獲得β 的最小二乘估計
此處不做證實,具體可參考《應用機率統計 張國權 著》第九章 迴歸分析。