通常來講,計量經濟學教材會從線性迴歸講起,但這裏再在線性迴歸以前,理一理更通常性的迴歸問題。函數
先看定義一下什麼叫回歸:優化
定義1 迴歸函數(Regression Function):\(\mathbb{E}(y|\mathbf{x})\)就是\(y\)對\(\mathbf{x}\)的迴歸函數。ui
再定義一個度量預測得好很差的指標:spa
定義2 均方誤(Mean Squared Error,MSE):假設用\(g(\mathbf{x})\)預測\(y\),則預測量\(g(\mathbf{x})\)的均方誤爲 $$\text{MSE}(g)=\mathbb{E}[y-g(\mathbf{x})]^2$$ci
最好的預測函數的形式是什麼?如下定理代表,最好的預測函數,偏偏就是迴歸函數即條件指望。it
定理1 MSE的最優解:\(\mathbb{E}(y|\mathbf{x})\)是如下問題的最優解:io
\[\mathbb{E}(y|\mathbf{x}) = \arg\min_{g\in \mathbb{F}} \text{MSE}(g) = \arg\min_{g\in \mathbb{F}} \mathbb{E}[y-g(\mathbf{x})]^2 \]其中\(\mathbb{F}\)是全部可測和平方可積函數的集合(space of all measurable and square-integrable functions):ast
\[\mathbb{F}=\{ g:\mathbb{R}^{k+1}\to\mathbb{R} \Big| \int g^2(\mathbf{x})f_X(\mathbf{x})\,d\mathbf{x}<\infty\} \]
在該定理中,直接求解最值問題比較複雜,須要用到變分法,用構造法證實該定理比較簡單,直接對\(\text{MSE}(g)\)作分解便可。令\(g_0(\mathbf{x})\equiv \mathbb{E}(y|\mathbf{x})\),則有function
顯然,第一項爲常數,只有當第二項爲\(0\)即\(g(\mathbf{x})=g_0(\mathbf{x})\)時,\(\text{MSE}(g)\)取到最小。class
再來看一個有關回歸中的擾動項的定理:
定理2 迴歸等式(Regresssion Identity):給定\(\mathbb{E}(y|\mathbf{x})\),老是有
\[y=\mathbb{E}(y|\mathbf{x})+\varepsilon \]
其中\(\varepsilon\)爲迴歸擾動項(regression disturbance),知足\(\mathbb{E}(\varepsilon|\mathbf{x})=0\)。
接下來的問題是,咱們該如何對這個最優解\(g_0(\mathbf{x})\)建模?最簡單地,能夠用線性函數去近似它。
首先,引入仿射函數的概念:
定義3 仿射函數族(Affine Functions):記\(\mathbf{x}=(1,x_1,\ldots,x_k)'\),\(\beta=(\beta_0,\beta_1,\ldots,\beta_k)'\),則仿射函數族定義爲
\[\mathbb{A}= \left\{g: \mathbb{R}^{k+1}\to\mathbb{R} \Big| g(\mathbf{x})=\mathbf{x}'\beta \right\} \]
當咱們將\(g(x)\)的函數集合從全部可測且平方可積的函數集限制爲仿射函數集後,問題轉變爲求解最優的參數\(\beta^*\)使得MSE最小化,該參數就稱爲最優最小二乘近似係數。
定理3 最優線性最小二乘預測(Best Linear Least Squares Prediction):假設\(E(y^2)<\infty\)且矩陣\(\mathbb{E}(\mathbf{x}\mathbf{x}')\)非奇異,則優化問題
\[\min_{g\in\mathbb{A}} \mathbb{E}[y-g(\mathbf{x})]^2=\min_{\beta\in\mathbb{R}^{k+1}} \mathbb{E}(y-\mathbf{x}'\beta)^2 \]的解,即最優線性最小二乘預測爲
\[g^*(\mathbf{x})=\mathbf{x}'\beta^* \]其中
\[\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y) \]
證實很是容易,只需對一階條件\(\dfrac{d\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta}\bigg|_{\beta=\beta^*}=0\)求解便可,由於二階條件即Hessian矩陣\(\dfrac{d^2\mathbb{E}(y-\mathbf{x}'\beta)^2}{d\beta d\beta'}=\mathbb{E}(\mathbf{x}\mathbf{x}')\)在\(\mathbb{E}(\mathbf{x}\mathbf{x}')\)非奇異時必定是正定的。
下面正式定義線性迴歸模型:
定義4 線性迴歸模型(Linear Regression Model):
\[y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1} \]其中\(u\)是迴歸模型偏差(regression model error)。
那麼,線性迴歸模型和最優線性最小二乘預測之間有什麼關係?
定理4 假設定理3的條件成立,\(y=\mathbf{x}'\beta+u\),並令\(\beta^*=[\mathbb{E}(\mathbf{x}\mathbf{x}')]^{-1}\mathbb{E}(\mathbf{x}y)\)爲最優線性最小二乘近似係數。則
\[\beta=\beta^* \]等價於\(\mathbb{E}(\mathbf{x}u)=0\)。
該定理的證實很是簡單,需從必要性和充分性兩方面證實,在此不做展開。
該定理意味着,只要正交條件\(\mathbb{E}(\mathbf{x}u)=0\)知足,那麼線性迴歸模型的參數值就等於最優線性最小二乘近似係數\(\beta^*\),兩者等價。
均值模型怎樣纔是正確設定了?
定義5 條件均值模型的正確設定(Correct Model Specification in Conditional Mean):線性迴歸模型\(y=\mathbf{x}'\beta+u, \beta\in\mathbb{R}^{k+1}\)是條件均值\(\mathbb{E}(y|\mathbf{x})\)的正確設定,若存在某個參數\(\beta^o \in \mathbb{R}^{k+1}\)使得\(\mathbb{E}(y|\mathbf{x})=\mathbf{x}'\beta\)。
另外一方面,若對於任意\(\beta\in \mathbb{R}^{k+1}\)均有\(\mathbb{E}(y|\mathbf{x})\neq \mathbf{x}'\beta\),則線性迴歸模型是對\(\mathbb{E}(y|\mathbf{x})\)的錯誤設定。
由該定義能夠看到,線性迴歸模型設定正確的條件是存在某一參數\(\beta^o\)使得\(\mathbb{E}(u|\mathbf{x})=0\)。換句話說,線性迴歸模型設定正確的充要條件是\(\mathbb{E}(u|\mathbf{x})=0\),其中\(u=y-\mathbf{x}'\beta^o\)。
下面的定理說明當均值模型設定正確時,迴歸模型偏差項\(u\)與真實迴歸擾動項\(\varepsilon\)的關係:
定理5 若是線性迴歸模型\(y=\mathbf{x}'\beta+u\)是對條件均值\(\mathbb{E}(y|\mathbf{x})\)的正確設定,則
(1) 存在一個參數\(\beta^o\)和一個隨機變量\(\varepsilon\),有\(y=\mathbf{x}'\beta^o+\varepsilon\),其中\(\mathbb{E}(\varepsilon|\mathbf{x})=0\);
(2) \(\beta^*=\beta^o\)。
由定義5可直接獲得(1),對於(2),可由(1)的\(\mathbb{E}(\varepsilon|\mathbf{x})=0\)推出\(\mathbb{E}(\mathbf{x}\varepsilon)=0\),再使用定理4便可得證。
爲便於理解,下面用一個例子說明什麼叫模型的正確設定和錯誤設定:
假設數據生成過程(DGP)爲\(y=1+\dfrac{1}{2}x_1+\dfrac{1}{4}(x_1^2-1)+\varepsilon\),其中\(x_1\)與\(\varepsilon\)是相互獨立的\(\mathcal{N}(0,1)\)隨機變量。如今若是咱們用線性迴歸模型\(y=\mathbf{x}'\beta+u\)對該DGP進行近似,其中\(\mathbf{x}=(1,x_1)'\)。
經計算,咱們能夠解得最優線性最小二乘近似\(\beta^*=(1,\dfrac{1}{2})'\),而\(g^*(\mathbf{x})=1+\dfrac{1}{2}x_1\),能夠看到其中沒有包含非線性的部分。若在迴歸模型中取\(\beta=\beta^*\),由定理4,就有\(\mathbb{E}(\mathbf{x}u)=0\),可是,此時\(\mathbb{E}(u|\mathbf{x})=\dfrac{1}{4}(x_1^2-1)\neq 0\),即模型沒有正確設定。
模型沒有被正確設定,它會形成什麼樣的後果?計算可知真正的指望邊際效應爲\(\dfrac{\mathbb{E}(y|\mathbf{x})}{dx_1}=\dfrac{1}{2}+\dfrac{1}{2}x_1\),但它不等於\(\beta^*_1=\dfrac{1}{2}\)。也就是說,模型的錯誤設定,會致使解出的最優線性最小二乘近似並非真正的指望邊際效用。