假定被解釋變量與多個解釋變量
之間具備線性關係,是解釋變量的多元線性函數,稱爲多元線性迴歸模型。即html
(1.1)函數
其中爲被解釋變量,
爲
個解釋變量,
爲
個未知參數,
爲隨機偏差項。post
被解釋變量的指望值與解釋變量
的線性方程爲:url
(1.2)htm
稱爲多元整體線性迴歸方程,簡稱整體迴歸方程。blog
對於組觀測值
,其方程組形式爲:get
(1.3)it
即class
其矩陣形式爲變量
=
+
即
(1.4)
其中
爲被解釋變量的觀測值向量;
爲解釋變量的觀測值矩陣;
爲整體迴歸參數向量;
爲隨機偏差項向量。
整體迴歸方程表示爲:
(1.5)
多元線性迴歸模型包含多個解釋變量,多個解釋變量同時對被解釋變量發生做用,若要考察其中一個解釋變量對
的影響就必須假設其它解釋變量保持不變來進行分析。所以多元線性迴歸模型中的迴歸係數爲偏回歸係數,即反映了當模型中的其它變量不變時,其中一個解釋變量對因變量
的均值的影響。
因爲參數都是未知的,能夠利用樣本觀測值
對它們進行估計。若計算獲得的參數估計值爲
,用參數估計值替代整體迴歸函數的未知參數
,則得多元線性樣本回歸方程:
(1.6)
其中爲參數估計值,
爲
的樣本回歸值或樣本擬合值、樣本估計值。
其矩陣表達形式爲:
(1.7)
其中爲被解釋變量樣本觀測值向量
的
階擬合值列向量;
爲解釋變量
的
階樣本觀測矩陣;
爲未知參數向量
的
階估計值列向量。
樣本回歸方程獲得的被解釋變量估計值與實際觀測值
之間的誤差稱爲殘差
。
(1.8)
與一元線性迴歸模型相同,多元線性迴歸模型利用普通最小二乘法(OLS)對參數進行估計時,有以下假定:
假定1 零均值假定:,即
(2.1)
假定2 同方差假定(的方差爲同一常數):
(2.2)
假定3 無自相關性:
(2.3)
假定4 隨機偏差項與解釋變量
不相關(這個假定自動成立):
(2.4)
假定5 隨機偏差項服從均值爲零,方差爲
的正態分佈:
(2.5)
假定6 解釋變量之間不存在多重共線性:
即各解釋變量的樣本觀測值之間線性無關,解釋變量的樣本觀測值矩陣的秩爲參數個數k+1,從而保證參數
的估計值惟一。
對於含有個解釋變量的多元線性迴歸模型
設分別做爲參數
的估計量,得樣本回歸方程爲:
觀測值與迴歸值
的殘差
爲:
由最小二乘法可知應使所有觀測值
與迴歸值
的殘差
的平方和最小,即便
(3.1)
取得最小值。根據多元函數的極值原理,分別對
求一階偏導,並令其等於零,即
(3.2)
即
化簡得下列方程組
(3.3)
上述個方程稱爲正規方程,其矩陣形式爲
(3.4)
由於
設爲估計值向量
樣本回歸模型兩邊同乘樣本觀測值矩陣
的轉置矩陣
,則有
得正規方程組:
(3.5)
由假定(6),,
爲
階方陣,因此
滿秩,
的逆矩陣
存在。於是
(3.6)
則爲向量的OLS估計量。
以二元線性迴歸模型爲例,導出二元線性迴歸模型的OLS估計量的表達式。由(1.3)式得二元線性迴歸模型爲
爲了計算的方便,先將模型中心化。
設,則二元迴歸模型改寫爲中心化模型。
(3.7)
記
(3.8)
將代入得
(3.9)
由於
(3.10)
則
由(3.6)式得
(3.11)
其中
由(3.11)式可知
得
(3.12)
(3.13)
(3.14)
樣本回歸方程獲得的被解釋變量估計值與實際觀測值
之間的誤差稱爲殘差
則
設,能夠得出
是
階對稱冪等矩陣,
,
。因而
而殘差的平方和爲
其中""表示矩陣的跡,即矩陣主對角線元素的和。因而
隨機偏差項的方差
的無偏估計量,記做
,即
,
,
爲殘差的標準差(或迴歸標準差)。
所以
(3.15)
其中
(3.16)
例如,對於二元線性迴歸模型()
(3.17)
(3.18)
一、線性性
指最小二乘估計量是被解釋變量的觀測值
的線性函數。
因爲
設,則矩陣
爲一非隨機的
階常數矩陣。因此
(3.19)
顯然最小二乘估計量是被解釋變量的觀測值
的線性函數。
二、無偏性
將代入(3-16)式得
(3.20)
則
因此是
的無偏估計量。
3.最小方差性
設爲
階數值矩陣,
爲
階隨機矩陣(隨機變量爲元素的矩陣),
爲
階數值矩陣,則
下面推導的方差、協方差矩陣。
定義:
由(3.20)式得
因此
(3.21)
這個矩陣主對角線上的元素表示的方差,非主對角線上的元素表示
的協方差。例如
是位於
的第
行與第
列交叉處的元素(主對角線上的元素);
是位於
的第
行與第
列交叉處的元素(非主對角線上的元素)
在應用上,咱們關心的的方差,而忽略協方差,所以把(3.21)式記做
(3.22)
記,則
,因此
是
的最小方差線性無偏估計。這說明,在(1.1)式係數的無偏估計量中,OLS估計量的方差比用其它估計方法所得的無偏估計量的方差都要小,這正是OLS的優越性所在。
用代替
則得
的標準估計量的估計值,乃稱爲標準差。
(3.23)
其中
對於二元迴歸模型(),求估計量
的方差,由(3.22)式得
其中
因而
因此
(3.24)
(3.25)
(3.26)
(3.27)
其中
設具備個解釋變量的迴歸模型爲
其迴歸方程爲
離差分解:
總離差平方和分解式爲:
(4.1)
即
(4.2)總離差平方和分解爲迴歸平方和與殘差平方和兩部分。
體現了觀測值
總波動大小,稱爲總誤差平方和,記做TSS.
體現了n個估計值
的波動大小,它是因爲Y與自變量
的變化而引發,被稱做爲迴歸平方和,記爲ESS(Explained Sum of Squares)或U;
稱爲殘差平方和,記爲RSS(Residual Sum of Squares)或Q.
對於多元迴歸方程,其樣本決定係數爲複決定係數或多重決定係數。
,簡記爲
。
(4.3)
根據式(4.2)
(4.4)
由於
由(3.16)式知
因此
(4.5)
做爲檢驗迴歸方程與樣本值擬合優度的指標:
越大,表示迴歸方程與樣本擬合的越好;反之,迴歸方程與樣本值擬合較差。
具體的,當時,求樣本決定係數
由(3.8)式,得 ,所以有
(4.6)
在使用時,容易發現
的大小與模型中的解釋變量的數目有關。若是模型中增長一個新解釋變量,總離差
不會改變,但總離差中由解釋變量解釋的部分,即迴歸平方和
將會增長,這就是說
與模型中解釋變量個數有關。但經過增長模型中解釋變量的數目而使
增大是錯誤的,顯然這樣
來檢驗被迴歸方程與樣本值擬合優度是不合適的,須要對
進行調整,使它不但能說明已被解釋離差與總離差的關係,並且又能說明自由度的數目。
以表示調整樣本決定係數,
(4.7)
其中
這裏是殘差平方和的自由度,
是總離差平方和的自由度。
由(4.7)式得
其中,是樣本觀測值的個數,
是解釋變量的個數。從式中能夠看出,當增長一個解釋變量時,由前面分析可知
會增長,引發
減小,而
增長,於是
不會增長。這樣用
斷定迴歸方程擬合優度,就消除了
對解釋變量個數的依賴。
或
只能說明在給定的樣本條件下回歸方程與樣本觀測值擬合優度,並不能作出對整體模型的推測,所以不能單憑
或
來選擇模型,必須對迴歸方程和模型中各參數的估計量作顯著性檢驗。
由離差平方和分解(4.2)式可知,總離差平方和的自由度爲
,迴歸平方和
是由
個解釋變量
對
的線性影響決定的。所以它的自由度爲
。因此,殘差平方和的自由度由總離差平方和的自由度減去迴歸平方和的自由度,即爲
。
檢驗迴歸方程是否顯著,
第一步,做出假設
備擇假設H1:b1 、 b2 、…、bk不一樣時爲0
第二步,在成立的條件下,計算統計量
第三步,查表臨界值
對於假設,根據樣本觀測值計算統計量
給定顯著水平
,查第一個自由度爲
,第二個自由度爲
的
分佈表得臨界值
。當
時,拒絕
,則認爲迴歸方程顯著成立;當
時,接受
,則認爲迴歸方程無顯著意義。
迴歸方程顯著成立,並不意味着每一個解釋變量對被解釋變量
的影響都是重要的。若是某個解釋變量對被解釋變量
的影響不重要,便可從迴歸模型中把它剔除掉,從新創建迴歸方程,以利於對經濟問題的分析和對
進行更準確的預測。爲此須要對每一個變量進行考查,若是某個解釋變量
對被解釋變量
的做用不顯著,那麼它在多元線性迴歸模型中,其前面的係數可取值爲零。所以必須對
是否爲零進行顯著性檢驗。
由(3.23)式
(4.8)
其中
爲
的第i個對角元素,而
,
是中心化的數據陣。
對迴歸係數進行顯著性
檢驗,步驟以下:
(1)提出原假設;備擇假設
。
(2)構造統計量,當
成立時,統計量
。這裏
是
的標準差,
爲解釋變量個數,計算由式(4.8)給出。
(3)給定顯著性水平,查自由度爲
的
分佈表,得臨界值
。
(4)若,則拒絕
,接受
,即認爲
顯著不爲零。若
,則接受
,即認爲
顯著爲零。
在實際問題中,影響因變量Y的因素(自變量)不少,人們但願從中挑選出影響顯著的自變量來創建迴歸關係式,這就涉及到自變量選擇的問題。
在迴歸方程中若漏掉對Y影響顯著的自變量,那麼創建的迴歸式用於預測時將會產生較大的誤差。但迴歸式若包含的變量太多,且其中有些對Y影響不大,顯然這樣的迴歸式不只使用不方便,並且反而會影響預測的精度。於是選擇合適的變量用於創建一個"最優"的迴歸方程是十分重要的問題。
選擇"最優"子集的變量篩選法包括逐步迴歸法(Stepwise),向前引入法(Forward)和向後剔除法(Backwad)。
向前引入法是從迴歸方程僅包括常數項開始,把自變量逐個引入迴歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關係最密切的變量,記爲,而後在剩餘的m-1個自變量中,再選一個
,使得
聯合起來二元迴歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量
,使得
聯合起來回歸效果最好,...如此下去,直至獲得"最優"迴歸方程爲止。
向前引入法中的終止條件爲,給定顯著性水平,當某一個對將被引入變量的迴歸係數做顯著性檢查時,若p-value
,則引入變量的過程結束,所得方程即爲"最優"迴歸方程。
向前引入法有一個明顯的缺點,就是因爲各自變量可能存在着相互關係,所以後續變量的選入可能會使前面已選入的自變量變得不重要。這樣最後獲得的"最優"迴歸方程可包含一些對Y影響不大的自變量。
向後剔除法與向前引入法正好相反,首先將所有m個自變量引入迴歸方程,而後逐個剔除對因變量Y做用不顯著的自變量。具體地說,從迴歸式m個自變量中選擇一個對Y貢獻最小的自變量,好比,將它從迴歸方程中剔除;而後從新計算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻最小的自變量,好比
,依次下去,直到獲得"最優"迴歸方程爲止。向後剔除法中終止條件與向前引入法相似。
向後剔除法的缺點在於,前面剔除的變量有可能因之後變量的剔除,變爲相對重要的變量,這樣最後獲得的"最優"迴歸方程中有可能漏掉相對重要的變量。
逐步迴歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向後剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些狀況下會獲得不合理的結果。因而,能夠考慮到,被選入的的變量,當它的做用在新變量引入後變得微不足道時,能夠將它刪除;被剔除的變量,當它的做用在新變量引入狀況下變得重要時,也可將它從新選入迴歸方程。這樣一種以向前引入法爲主,變量可進可出的篩選變量方法,稱爲逐步迴歸法。
逐個引入自變量。每次引入對Y影響最顯著的自變量,並對方程中的老變量逐個進行檢驗,把變爲不顯著的變量逐個從方程中剔除掉,最終獲得的方程中既不漏掉對Y影響顯著的變量,又不包含對Y影響不顯著的變量。
首先給出引入變量的顯著性水平和剔除變量的顯著性水平
,而後按下圖篩選變量。
逐步篩選變量的過程主要包括兩個基本步驟:一是從迴歸方程中考慮剔除不顯著變量的步驟;二是從不在方程中的變量考慮引入新變量的步驟。
(1)考慮能否引入新變量的基本步驟。假設已入選r個變量,不在方程中的變量記爲
,Q表示括號中這些變量的迴歸模型的殘差平方和。並設
,即不在方程中的變量
是對Y影響最大的變量。
及
,其中F~F(1,n-r-1).
若p<,則引入
,並轉入考慮能否剔除變量的步驟。若
,則逐步篩選變量的過程結束。
(2)考慮能否剔除變量的基本步驟。假設已引入迴歸方程的變量爲.
,即相應的變量
是方程中對Y影響最小的變量。
及
,其中F~F(1,n-r-1)。
若p大於等於,則剔除
,從新創建Y與其他r-1個變量的迴歸方程,而後再檢驗方程中最不重要的變量能否刪除,直到方程中沒有變量可刪除後,轉入考慮可否引入新變量的步驟。
(1)後向選擇
(2) 前向引入(Forward)
(3)逐步迴歸(Stepwise)