多元線性迴歸

轉自:http://www.cnblogs.com/zgw21cn/archive/2009/01/07/1361287.html

多元線性迴歸

一、多元線性迴歸模型

假定被解釋變量與多個解釋變量之間具備線性關係,是解釋變量的多元線性函數,稱爲多元線性迴歸模型。即html

 (1.1)函數

其中爲被解釋變量,個解釋變量,個未知參數,爲隨機偏差項。post

被解釋變量的指望值與解釋變量的線性方程爲:url

 (1.2)htm

稱爲多元整體線性迴歸方程,簡稱整體迴歸方程。blog

對於組觀測值,其方程組形式爲:get

 (1.3)it

class

其矩陣形式爲變量

=+

 (1.4)

其中

爲被解釋變量的觀測值向量;爲解釋變量的觀測值矩陣;爲整體迴歸參數向量;爲隨機偏差項向量。

整體迴歸方程表示爲:

 (1.5)

多元線性迴歸模型包含多個解釋變量,多個解釋變量同時對被解釋變量發生做用,若要考察其中一個解釋變量對的影響就必須假設其它解釋變量保持不變來進行分析。所以多元線性迴歸模型中的迴歸係數爲偏回歸係數,即反映了當模型中的其它變量不變時,其中一個解釋變量對因變量的均值的影響。

因爲參數都是未知的,能夠利用樣本觀測值對它們進行估計。若計算獲得的參數估計值爲,用參數估計值替代整體迴歸函數的未知參數,則得多元線性樣本回歸方程:

 (1.6)

其中爲參數估計值,的樣本回歸值或樣本擬合值、樣本估計值。

其矩陣表達形式爲:

 (1.7)

其中爲被解釋變量樣本觀測值向量階擬合值列向量;爲解釋變量階樣本觀測矩陣;爲未知參數向量階估計值列向量。

樣本回歸方程獲得的被解釋變量估計值與實際觀測值之間的誤差稱爲殘差

 (1.8)

二、多元線性迴歸模型的假定

與一元線性迴歸模型相同,多元線性迴歸模型利用普通最小二乘法(OLS)對參數進行估計時,有以下假定:

假定1 零均值假定:,即

 (2.1)

假定2 同方差假定(的方差爲同一常數):

 (2.2)

假定3 無自相關性:

 

 (2.3)

假定4 隨機偏差項與解釋變量不相關(這個假定自動成立):

 (2.4)

假定5 隨機偏差項服從均值爲零,方差爲的正態分佈:

 (2.5)

假定6 解釋變量之間不存在多重共線性:

即各解釋變量的樣本觀測值之間線性無關,解釋變量的樣本觀測值矩陣的秩爲參數個數k+1,從而保證參數的估計值惟一。

三、多元線性迴歸模型的參數估計

3.1迴歸參數的最小二乘估計

對於含有個解釋變量的多元線性迴歸模型

分別做爲參數的估計量,得樣本回歸方程爲:

觀測值與迴歸值的殘差爲:

由最小二乘法可知應使所有觀測值與迴歸值的殘差的平方和最小,即便

 (3.1)

取得最小值。根據多元函數的極值原理,分別對求一階偏導,並令其等於零,即

 (3.2)

化簡得下列方程組

 (3.3)

上述個方程稱爲正規方程,其矩陣形式爲

 (3.4)

由於

爲估計值向量

樣本回歸模型兩邊同乘樣本觀測值矩陣的轉置矩陣,則有

得正規方程組:

 (3.5)

由假定(6),階方陣,因此滿秩,的逆矩陣存在。於是

 (3.6)

則爲向量的OLS估計量。

以二元線性迴歸模型爲例,導出二元線性迴歸模型的OLS估計量的表達式。由(1.3)式得二元線性迴歸模型爲

爲了計算的方便,先將模型中心化。

,則二元迴歸模型改寫爲中心化模型。

 (3.7)

 (3.8)

代入得

 (3.9)

由於

 (3.10)

由(3.6)式得

 (3.11)

其中

由(3.11)式可知

 (3.12)

 (3.13)

 (3.14)

3.2隨機偏差項的方差的估計量

樣本回歸方程獲得的被解釋變量估計值與實際觀測值之間的誤差稱爲殘差

,能夠得出階對稱冪等矩陣,。因而

而殘差的平方和爲

其中""表示矩陣的跡,即矩陣主對角線元素的和。因而

隨機偏差項的方差的無偏估計量,記做,即爲殘差的標準差(或迴歸標準差)。

所以

 (3.15)

其中

 (3.16)

例如,對於二元線性迴歸模型()

 (3.17)

 (3.18)

3.三、估計參數的統計性質

一、線性性

指最小二乘估計量是被解釋變量的觀測值的線性函數。

因爲

,則矩陣爲一非隨機的階常數矩陣。因此

 (3.19)

顯然最小二乘估計量是被解釋變量的觀測值的線性函數。

二、無偏性

代入(3-16)式得

 (3.20)

因此的無偏估計量。

3.最小方差性

階數值矩陣,階隨機矩陣(隨機變量爲元素的矩陣),階數值矩陣,則

下面推導的方差、協方差矩陣。

定義:

由(3.20)式得

因此

 (3.21)

這個矩陣主對角線上的元素表示的方差,非主對角線上的元素表示的協方差。例如是位於的第行與第列交叉處的元素(主對角線上的元素);是位於的第行與第列交叉處的元素(非主對角線上的元素)

在應用上,咱們關心的的方差,而忽略協方差,所以把(3.21)式記做

 (3.22)

,則,因此的最小方差線性無偏估計。這說明,在(1.1)式係數的無偏估計量中,OLS估計量的方差比用其它估計方法所得的無偏估計量的方差都要小,這正是OLS的優越性所在。

代替則得的標準估計量的估計值,乃稱爲標準差。

 (3.23)

其中

對於二元迴歸模型(),求估計量的方差,由(3.22)式得

其中

因而

因此

 (3.24)

 (3.25)

 (3.26)

 (3.27)

其中

 

4. 顯著性檢驗

4.1 擬合優度檢驗

4.1.1總離差平方和分解

設具備個解釋變量的迴歸模型爲

其迴歸方程爲

離差分解:

總離差平方和分解式爲:

 (4.1)

 (4.2)總離差平方和分解爲迴歸平方和與殘差平方和兩部分。體現了觀測值總波動大小,稱爲總誤差平方和,記做TSS. 體現了n個估計值的波動大小,它是因爲Y與自變量的變化而引發,被稱做爲迴歸平方和,記爲ESS(Explained Sum of Squares)或U;稱爲殘差平方和,記爲RSS(Residual Sum of Squares)或Q.

4.1.2樣本決定係數

對於多元迴歸方程,其樣本決定係數爲複決定係數或多重決定係數。

,簡記爲

 (4.3)

根據式(4.2)

 (4.4)

由於

由(3.16)式知

因此

 (4.5)

做爲檢驗迴歸方程與樣本值擬合優度的指標:越大,表示迴歸方程與樣本擬合的越好;反之,迴歸方程與樣本值擬合較差。

具體的,當時,求樣本決定係數

由(3.8)式,得 ,所以有

 (4.6)

4.1.3調整後的樣本決定係數

在使用時,容易發現的大小與模型中的解釋變量的數目有關。若是模型中增長一個新解釋變量,總離差不會改變,但總離差中由解釋變量解釋的部分,即迴歸平方和將會增長,這就是說與模型中解釋變量個數有關。但經過增長模型中解釋變量的數目而使增大是錯誤的,顯然這樣來檢驗被迴歸方程與樣本值擬合優度是不合適的,須要對進行調整,使它不但能說明已被解釋離差與總離差的關係,並且又能說明自由度的數目。

表示調整樣本決定係數,

 (4.7)

其中

這裏是殘差平方和的自由度,是總離差平方和的自由度。

由(4.7)式得

其中,是樣本觀測值的個數,是解釋變量的個數。從式中能夠看出,當增長一個解釋變量時,由前面分析可知會增長,引發減小,而增長,於是不會增長。這樣用斷定迴歸方程擬合優度,就消除了對解釋變量個數的依賴。

只能說明在給定的樣本條件下回歸方程與樣本觀測值擬合優度,並不能作出對整體模型的推測,所以不能單憑來選擇模型,必須對迴歸方程和模型中各參數的估計量作顯著性檢驗。

4.2方程顯著性檢驗

由離差平方和分解(4.2)式可知,總離差平方和的自由度爲,迴歸平方和是由個解釋變量的線性影響決定的。所以它的自由度爲。因此,殘差平方和的自由度由總離差平方和的自由度減去迴歸平方和的自由度,即爲

檢驗迴歸方程是否顯著,

第一步,做出假設

備擇假設H1:b1 、 b2 、…、bk不一樣時爲0

第二步,在成立的條件下,計算統計量

第三步,查表臨界值

對於假設,根據樣本觀測值計算統計量給定顯著水平,查第一個自由度爲,第二個自由度爲分佈表得臨界值。當時,拒絕,則認爲迴歸方程顯著成立;當時,接受,則認爲迴歸方程無顯著意義。

4.3參數顯著性檢驗

迴歸方程顯著成立,並不意味着每一個解釋變量對被解釋變量的影響都是重要的。若是某個解釋變量對被解釋變量的影響不重要,便可從迴歸模型中把它剔除掉,從新創建迴歸方程,以利於對經濟問題的分析和對進行更準確的預測。爲此須要對每一個變量進行考查,若是某個解釋變量對被解釋變量的做用不顯著,那麼它在多元線性迴歸模型中,其前面的係數可取值爲零。所以必須對是否爲零進行顯著性檢驗。

由(3.23)式

 (4.8)

其中

的第i個對角元素,而是中心化的數據陣。

對迴歸係數進行顯著性檢驗,步驟以下:

(1)提出原假設;備擇假設

(2)構造統計量,當成立時,統計量。這裏的標準差,爲解釋變量個數,計算由式(4.8)給出。

(3)給定顯著性水平,查自由度爲分佈表,得臨界值

(4)若,則拒絕,接受,即認爲顯著不爲零。若,則接受,即認爲顯著爲零。

5.迴歸變量的選擇與逐步迴歸

5.1變量選擇問題

在實際問題中,影響因變量Y的因素(自變量)不少,人們但願從中挑選出影響顯著的自變量來創建迴歸關係式,這就涉及到自變量選擇的問題。

在迴歸方程中若漏掉對Y影響顯著的自變量,那麼創建的迴歸式用於預測時將會產生較大的誤差。但迴歸式若包含的變量太多,且其中有些對Y影響不大,顯然這樣的迴歸式不只使用不方便,並且反而會影響預測的精度。於是選擇合適的變量用於創建一個"最優"的迴歸方程是十分重要的問題。

選擇"最優"子集的變量篩選法包括逐步迴歸法(Stepwise),向前引入法(Forward)和向後剔除法(Backwad)。

向前引入法是從迴歸方程僅包括常數項開始,把自變量逐個引入迴歸方程。具體地說,先在m個自變量中選擇一個與因變量線性關係最密切的變量,記爲,而後在剩餘的m-1個自變量中,再選一個,使得聯合起來二元迴歸效果最好,第三步在剩下的m-2個自變量中選擇一個變量,使得聯合起來回歸效果最好,...如此下去,直至獲得"最優"迴歸方程爲止。

向前引入法中的終止條件爲,給定顯著性水平,當某一個對將被引入變量的迴歸係數做顯著性檢查時,若p-value ,則引入變量的過程結束,所得方程即爲"最優"迴歸方程。

向前引入法有一個明顯的缺點,就是因爲各自變量可能存在着相互關係,所以後續變量的選入可能會使前面已選入的自變量變得不重要。這樣最後獲得的"最優"迴歸方程可包含一些對Y影響不大的自變量。

向後剔除法與向前引入法正好相反,首先將所有m個自變量引入迴歸方程,而後逐個剔除對因變量Y做用不顯著的自變量。具體地說,從迴歸式m個自變量中選擇一個對Y貢獻最小的自變量,好比,將它從迴歸方程中剔除;而後從新計算Y與剩下的m-1個自變量回歸方程,再剔除一個貢獻最小的自變量,好比,依次下去,直到獲得"最優"迴歸方程爲止。向後剔除法中終止條件與向前引入法相似。

向後剔除法的缺點在於,前面剔除的變量有可能因之後變量的剔除,變爲相對重要的變量,這樣最後獲得的"最優"迴歸方程中有可能漏掉相對重要的變量。

逐步迴歸法是上述兩個方法的綜合。向前引入中被選入的變量,將一直保留在方程中。向後剔除法中被剔除的變量,將一直排除在外。這兩種方程在某些狀況下會獲得不合理的結果。因而,能夠考慮到,被選入的的變量,當它的做用在新變量引入後變得微不足道時,能夠將它刪除;被剔除的變量,當它的做用在新變量引入狀況下變得重要時,也可將它從新選入迴歸方程。這樣一種以向前引入法爲主,變量可進可出的篩選變量方法,稱爲逐步迴歸法。

5.2逐步迴歸分析

5.2.1基本思想

逐個引入自變量。每次引入對Y影響最顯著的自變量,並對方程中的老變量逐個進行檢驗,把變爲不顯著的變量逐個從方程中剔除掉,最終獲得的方程中既不漏掉對Y影響顯著的變量,又不包含對Y影響不顯著的變量。

5.2.2篩選的步驟

首先給出引入變量的顯著性水平和剔除變量的顯著性水平,而後按下圖篩選變量。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5.2.3逐步篩選法的基本步驟

逐步篩選變量的過程主要包括兩個基本步驟:一是從迴歸方程中考慮剔除不顯著變量的步驟;二是從不在方程中的變量考慮引入新變量的步驟。

(1)考慮能否引入新變量的基本步驟。假設已入選r個變量,不在方程中的變量記爲

  1. 計算不在方程中的變量 的偏回歸平方和

,Q表示括號中這些變量的迴歸模型的殘差平方和。並設

,即不在方程中的變量是對Y影響最大的變量。

  1. 檢驗變量 對Y的影響是否顯著。對變量 做迴歸係數的顯著性檢驗,即檢驗 ,檢驗統計量爲

,其中F~F(1,n-r-1).

若p<,則引入,並轉入考慮能否剔除變量的步驟。若,則逐步篩選變量的過程結束。

(2)考慮能否剔除變量的基本步驟。假設已引入迴歸方程的變量爲.

  1. 計算已在方程中的變量 的偏回歸平方和   其中Q表示括號中這些變量的迴歸模型的殘差平方和,U表示其迴歸平方和。設

,即相應的變量是方程中對Y影響最小的變量。

  1. 檢驗 對Y的影響是否顯著。對變量 進行迴歸係數的顯著性檢驗,即檢驗 ,檢驗統計量爲

,其中F~F(1,n-r-1)。

若p大於等於,則剔除,從新創建Y與其他r-1個變量的迴歸方程,而後再檢驗方程中最不重要的變量能否刪除,直到方程中沒有變量可刪除後,轉入考慮可否引入新變量的步驟。

5.3流程圖

(1)後向選擇

(2) 前向引入(Forward)

(3)逐步迴歸(Stepwise)

相關文章
相關標籤/搜索