小樣本OLS迴歸的框架

時間 2021-03-07

標籤算法框架機器學習學習 spa orm 數學 ast 欄目 Java 简体版

原文原文鏈接

1 最小二乘法的歷史

無論是學習機器學習、計量經濟學、數理統計，不少人接觸到的第一個算法就是最小二乘法（least squares method）。算法

這是一個很是古老的方法。早在18世紀早期，在天文學和航海領域就已經出現了最小二乘法的思想。真正意義上第一個正式發表該方法是在1806年的法國科學家Legendre，而數學王子Gauss聽說在更早時候就發現了該方法，但直到1809年他在發表計算天體運動軌道時才正式使用，兩人也爲誰是第一個發現的爭論不休。框架

Gauss畢竟是數學王子，1829年，他又首次證實出，在線性無偏估計量的類中，OLS估計具備最小的抽樣方差。在他的證實中，假設了線性迴歸模型中的偏差項是獨立且正態分佈的，後來，由Markov將假設放寬到只須要偏差項不相關、同方差且指望爲0便可。所以，該定理最終被命名爲Gauss-Markov定理。機器學習

2 小樣本OLS迴歸的框架

作OLS迴歸是爲了什麼？簡而言之，在假設了數據生成過程\(y=\beta' x+\varepsilon\)並收集到一系列\((x,y)\)的數據以後，咱們能夠作的事情有3個，這也是咱們學習OLS迴歸的路線：學習

獲得係數的點估計；
判斷數據擬合得如何？
獲得係數的區間估計，進行假設檢驗。

首先，咱們先利用數據獲得點估計\(\hat{\beta}\)，由此還能夠獲得它的一系列性質，而後，能夠經過計算如\(R^2\)等一系列指標來講明擬合得如何，最後，在獲得區間估計後，能夠對預先的有關於係數的假設進行假設檢驗。ui

2.1 點估計及其性質

在使用OLS迴歸以後，能夠獲得spa

\[\hat\beta=(X'X)^{-1}X'y \]

這就是係數的點估計，能夠看下它有什麼樣的性質。orm

首先，它是\(y\)的線性組合，具備線性性，另外，在施加一些假設後，它的條件指望是對係數的無偏估計，即\(\mathbb{E}(\hat\beta|X)=\beta\)，而它的方差則由Gauss-Markov定理保證了是最小的，這就是「BLUE」（Best Linear Unbiased Estimator）。數學

2.2 擬合優度

對於擬合優度，基礎的指標有中心化或非中心化\(R^2\)。io

而對於模型的選擇來講，若是用\(R^2\)做爲模型選擇的標準，則很明顯，加入的自變量越多，\(R^2\)就會越高，所以須要用其餘的指標。如AIC（Akaike Information Crierion）、BIC（Bayesian Information Crierion）、調整\(R^2\)即\(\bar{R}^2\)等，均可以來選擇模型。ast

2.3 區間估計與假設檢驗

若假設\(\varepsilon|X\sim N(0,\sigma^2 I)\)（其中\(\sigma\)未知），則\(\hat{\beta}\)也相應地服從正態分佈，所以能夠獲得它的區間估計。但獲得它的區間估計並非咱們的最終目的，咱們的最終目的是要檢驗如\(R\beta=r\)（其中\(R\)爲\(J\times K\)矩陣）這樣的假設是否成立。

由統計學知識可知，可構造出這樣的二次型

\[\dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)}{\sigma^2}|X \sim \chi^2_J \]

上式雖然能夠證實它服從\(\chi^2\)分佈，但左側的\(\sigma^2\)咱們殊不知道，所以咱們沒法利用上式構造統計量。

一個解決辦法是用\(s^2=\dfrac{1}{N-K}e'e\)估計\(\sigma^2\)，能夠證實，這樣估計是無偏的，即\(\mathbb{E}(s^2|X)=\sigma^2\)，且知足

\[\dfrac{(N-K)s^2}{\sigma^2}|X\sim \chi^2_{N-K} \]

和

\[s^2 \perp \!\!\!\!\!\!\! \perp \hat{\beta} |X \]

所以，咱們能夠構造一個\(F\)統計量進行檢驗：

\[F\equiv \dfrac{(R\hat\beta-r)'(\cdot)(R\hat\beta-r)/J}{s^2}\sim F_{J,N-K} \]

這樣能夠聯合檢驗有關係數的\(J\)個線性假設，只需將假設寫成\(R\beta=r\)的形式便可。若只需檢驗一個假設，即\(J=1\)，則因\(F_{1,q}\sim t^2_q\)，故統計量可化爲\(t\)分佈，直接進行\(t\)檢驗便可。