貝葉斯線性迴歸(單輸出)

本文主要依據Pattern Recognition and Machine Learing第三章的內容展開。

1線性模型

假設有一個 D 維的輸入 x ,和一個連續的目標輸出 t ,我們可以利用一組固定的基函數 ϕi(x),i=0,,M 的線性組合(組合係數爲 w0,,wM ),得到一個線性迴歸模型:

t=i=0Mwiϕi(x)

其中, ϕ0(x)=1 , w0 爲偏置項,則上式可以簡記爲:
t=y(x,w)=i=0Mwiϕi(x)=wϕ(x)

其中 w=(w0,,wM) ϕ=(ϕ0,,ϕM)

當有 N D 維的輸入 X=(x1,,xN) 和對應的目標輸出 t=(t1,,tN) 時,同理。

由此可見,雖然模型叫做貝葉斯線性迴歸模型,但它的線性是體現在參數 w 上。而這個模型的線性與否實際上取決於 ϕ(x) ,我們將其稱爲基函數。下面簡要介紹線性基函數、多項式基函數和高斯基函數。

1.1線性基函數

在所有基函數中,最爲簡單的便是線性基函數,它是令:

y(x,w)=w0+w1x1++wDxD
其中
x=(x1,,xD)

1.2多項式基函數

在多項式基函數中,最簡單的基函數是單變量 x 的一元多項式按照冪次大小進行組合,此時:

y(x,w)=w0+w1x1++wMxM

當輸入變量爲多維時,基函數會變得較爲複雜,例如當 x=(x1,x2) 時:
y(x,w)=w0+w11x1+w12x2+w21x21+w22x1x2+w23x22++wM1xM1+

因此,通常情況下,我們使用多項式作爲基函數時,會假定其輸入變量 x 的維度 D 和基函數個數 M 均較小;或者 x 內各個特徵 xi 之間相互獨立,則上式中所有變量交叉項全爲0,只存在 xji,i{1,,D},j{1,,M} 的項。

1.3高斯基函數

高斯基函數又稱徑向基函數RBF,形如:

ϕi(x)=exp(12(xμi)Σ1(xμi))

其中, μi ϕi(x) 的高斯分佈中心, Σ x 的變量間協方差矩陣。
除了上述基函數,較常用的還有Sigmoid基函數:
ϕj(x)=σ(xμjs)

其中
σ(a)=11+exp(a)

等價的我們還可以用 tanh 函數,因爲 tanh(a)=2σ(a)1 ,所以 sigmoid 函數的線性組合與 tanh 函數的線性組合是等價的。

1.4 基函數圖像

在上述幾種基函數中,線性基函數和多項式基函數是全局基函數,他們對所有 X 均能產生影響,而高斯基函數和Sigmoid基函數等,只會對部分特定範圍內的 X 產生影響。多項式基函數、高斯基函數和Sigmoid基函數的圖像如下所示:
基函數圖像

2極大似然法求解

在實際的迴歸模型中,我們獲得的數據一般都疊加有噪音 ϵ ,此時的迴歸模型可以表示爲:

t=y(x,w)+ϵ

其中 p(ϵ|β)=N(ϵ|0,β1) ,則似然函數爲:
p(t|x,w,β)=N(t|y(x,w),β1)

假設有一組獨立同分布的數據 X=(x1,,xN) 及其對應目標輸出 t=(t1,,tN)T 。則此時的似然函數爲:
p(t|X,w,β)=n=1NN(tn|wϕ(xn),β1)

只考慮參數項,則對數似然爲:
lnp(t|w,β)=n=1NlnN(tn|wϕ(xn),β1)=N2lnβN2ln(2π)βED(w)

其中 ED(w) 是平方和誤差:
ED(w)=12n=1N[tnwϕ(xn)]2

如果只對 w 優化,則最大似然就相當於最小二乘。

令對數似然函數對 w 的梯度爲0,得到:

lnp(t|w,β)=βn=1N[tnwϕ(xn)]ϕ(xn)=0

即:
=1N [tnwϕ(xn)] ϕ ( xn ) = 0

即:
n=1Ntnϕ(xnϕ(xn)]ϕ(xn)=0

即:
n=1Ntnϕ(xn)wn)⊤</
相關文章
相關標籤/搜索