本文主要依據Pattern Recognition and Machine Learing第三章的內容展開。
1線性模型
假設有一個
D
維的輸入
x
,和一個連續的目標輸出
t
,我們可以利用一組固定的基函數
ϕi(x),i=0,…,M
的線性組合(組合係數爲
w0,…,wM
),得到一個線性迴歸模型:
t=∑i=0Mwiϕi(x)
其中,
ϕ0(x)=1
,
w0
爲偏置項,則上式可以簡記爲:
t=y(x,w)=∑i=0Mwiϕi(x)=w⊤ϕ(x)
其中
w=(w0,…,wM)⊤
,
ϕ=(ϕ0,…,ϕM)⊤
。
當有
N
個
D
維的輸入
X=(x1,…,xN)⊤
和對應的目標輸出
t=(t1,…,tN)⊤
時,同理。
由此可見,雖然模型叫做貝葉斯線性迴歸模型,但它的線性是體現在參數
w
上。而這個模型的線性與否實際上取決於
ϕ(x)
,我們將其稱爲基函數。下面簡要介紹線性基函數、多項式基函數和高斯基函數。
1.1線性基函數
在所有基函數中,最爲簡單的便是線性基函數,它是令:
y(x,w)=w0+w1x1+⋯+wDxD
其中
x=(x1,…,xD)⊤
1.2多項式基函數
在多項式基函數中,最簡單的基函數是單變量
x
的一元多項式按照冪次大小進行組合,此時:
y(x,w)=w0+w1x1+⋯+wMxM
當輸入變量爲多維時,基函數會變得較爲複雜,例如當
x=(x1,x2)
時:
y(x,w)=w0+w11x1+w12x2+w21x21+w22x1x2+w23x22+⋯+wM1xM1+⋯
因此,通常情況下,我們使用多項式作爲基函數時,會假定其輸入變量
x
的維度
D
和基函數個數
M
均較小;或者
x
內各個特徵
xi
之間相互獨立,則上式中所有變量交叉項全爲0,只存在
xji,i∈{1,…,D},j∈{1,…,M}
的項。
1.3高斯基函數
高斯基函數又稱徑向基函數RBF,形如:
ϕi(x)=exp(−12(x−μi)⊤Σ−1(x−μi))
其中,
μi
爲
ϕi(x)
的高斯分佈中心,
Σ
爲
x
的變量間協方差矩陣。
除了上述基函數,較常用的還有Sigmoid基函數:
ϕj(x)=σ(x−μjs)
其中
σ(a)=11+exp(−a)
等價的我們還可以用 tanh 函數,因爲
tanh(a)=2σ(a)−1
,所以 sigmoid 函數的線性組合與 tanh 函數的線性組合是等價的。
1.4 基函數圖像
在上述幾種基函數中,線性基函數和多項式基函數是全局基函數,他們對所有
X
均能產生影響,而高斯基函數和Sigmoid基函數等,只會對部分特定範圍內的
X
產生影響。多項式基函數、高斯基函數和Sigmoid基函數的圖像如下所示:
2極大似然法求解
在實際的迴歸模型中,我們獲得的數據一般都疊加有噪音
ϵ
,此時的迴歸模型可以表示爲:
t=y(x,w)+ϵ
其中
p(ϵ|β)=N(ϵ|0,β−1)
,則似然函數爲:
p(t|x,w,β)=N(t|y(x,w),β−1)
假設有一組獨立同分布的數據
X=(x1,…,xN)⊤
及其對應目標輸出
t=(t1,…,tN)T
。則此時的似然函數爲:
p(t|X,w,β)=∏n=1NN(tn|w⊤ϕ(xn),β−1)
只考慮參數項,則對數似然爲:
lnp(t|w,β)=∑n=1NlnN(tn|w⊤ϕ(xn),β−1)=N2lnβ−N2ln(2π)−βED(w)
其中
ED(w)
是平方和誤差:
ED(w)=12∑n=1N[tn−w⊤ϕ(xn)]2
如果只對
w
優化,則最大似然就相當於最小二乘。
令對數似然函數對
w
的梯度爲0,得到:
▽lnp(t|w,β)=β∑n=1N[tn−w⊤ϕ(xn)]ϕ(xn)⊤=0
即:
=1N
[tn−w⊤ϕ(xn)]
ϕ
(
xn
)⊤
=
0
即:
∑n=1Ntnϕ(xn⊤ϕ(xn)]ϕ(xn)⊤=0
即:
∑n=1Ntnϕ(xn)⊤−w⊤n)⊤</