無論是學習機器學習、計量經濟學、數理統計,不少人接觸到的第一個算法就是最小二乘法(least squares method)。算法
這是一個很是古老的方法。早在18世紀早期,在天文學和航海領域就已經出現了最小二乘法的思想。真正意義上第一個正式發表該方法是在1806年的法國科學家Legendre,而數學王子Gauss聽說在更早時候就發現了該方法,但直到1809年他在發表計算天體運動軌道時才正式使用,兩人也爲誰是第一個發現的爭論不休。框架
Gauss畢竟是數學王子,1829年,他又首次證實出,在線性無偏估計量的類中,OLS估計具備最小的抽樣方差。在他的證實中,假設了線性迴歸模型中的偏差項是獨立且正態分佈的,後來,由Markov將假設放寬到只須要偏差項不相關、同方差且指望爲0便可。所以,該定理最終被命名爲Gauss-Markov定理。機器學習
作OLS迴歸是爲了什麼?簡而言之,在假設了數據生成過程\(y=\beta' x+\varepsilon\)並收集到一系列\((x,y)\)的數據以後,咱們能夠作的事情有3個,這也是咱們學習OLS迴歸的路線:學習
首先,咱們先利用數據獲得點估計\(\hat{\beta}\),由此還能夠獲得它的一系列性質,而後,能夠經過計算如\(R^2\)等一系列指標來講明擬合得如何,最後,在獲得區間估計後,能夠對預先的有關於係數的假設進行假設檢驗。ui
在使用OLS迴歸以後,能夠獲得spa
這就是係數的點估計,能夠看下它有什麼樣的性質。orm
首先,它是\(y\)的線性組合,具備線性性,另外,在施加一些假設後,它的條件指望是對係數的無偏估計,即\(\mathbb{E}(\hat\beta|X)=\beta\),而它的方差則由Gauss-Markov定理保證了是最小的,這就是「BLUE」(Best Linear Unbiased Estimator)。數學
對於擬合優度,基礎的指標有中心化或非中心化\(R^2\)。io
而對於模型的選擇來講,若是用\(R^2\)做爲模型選擇的標準,則很明顯,加入的自變量越多,\(R^2\)就會越高,所以須要用其餘的指標。如AIC(Akaike Information Crierion)、BIC(Bayesian Information Crierion)、調整\(R^2\)即\(\bar{R}^2\)等,均可以來選擇模型。ast
若假設\(\varepsilon|X\sim N(0,\sigma^2 I)\)(其中\(\sigma\)未知),則\(\hat{\beta}\)也相應地服從正態分佈,所以能夠獲得它的區間估計。但獲得它的區間估計並非咱們的最終目的,咱們的最終目的是要檢驗如\(R\beta=r\)(其中\(R\)爲\(J\times K\)矩陣)這樣的假設是否成立。
由統計學知識可知,可構造出這樣的二次型
上式雖然能夠證實它服從\(\chi^2\)分佈,但左側的\(\sigma^2\)咱們殊不知道,所以咱們沒法利用上式構造統計量。
一個解決辦法是用\(s^2=\dfrac{1}{N-K}e'e\)估計\(\sigma^2\),能夠證實,這樣估計是無偏的,即\(\mathbb{E}(s^2|X)=\sigma^2\),且知足
和
所以,咱們能夠構造一個\(F\)統計量進行檢驗:
這樣能夠聯合檢驗有關係數的\(J\)個線性假設,只需將假設寫成\(R\beta=r\)的形式便可。若只需檢驗一個假設,即\(J=1\),則因\(F_{1,q}\sim t^2_q\),故統計量可化爲\(t\)分佈,直接進行\(t\)檢驗便可。