PRML_Exercises
Pattern Recognition and Machine Learning習題中文詳解
歡迎討論題目(我把自己做的過程貼出來也是爲了更方便討論),禁止一切形式的轉載。
關於排版,實話說我也想把公式排得舒服好看一些,奈何着實費力,這着實不太討喜,見諒。
Chapter 1
1.1
能夠使得式(1.2)給出的誤差函數最小的參數
w={wi}就是使得誤差爲
0的參數,那麼就滿足
j=0∑Mwjxnj=tn
而我們要做的這道證明題的右式
Ti=n=1∑N(xn)itn
直接將上述我們已知的
tn代入,得
Ti=n=1∑N[(xn)ij=0∑Mwj(xn)j]
又由於
(xn)i不含有與
j相關的係數,所以可以將其放入後面的求和項,即
Ti=n=1∑Nj=0∑M(xn)iwj(xn)j
再互換一下求和順序
Ti=j=0∑Mn=1∑N(xn)iwjxnj=j=0∑Mn=1∑N(xn)i+jwj
其中就可以看到
∑n=1N(xn)i+j就是題目中的
Aij了,從而得證。
1.2
已知
E
(w)=21n=1∑N{y(xn,w)−tn}2+2λ∥w∥2
其中
∥w∥2≡wTw=w02+w12+…+wM2,這裏提一下正則項裏面的
w02,作者說通常來講這一項要麼不放正則項中,要麼使用另一個
λ對其進行大小控制,不過咱們這裏爲了公式的推導方便就不做特殊處理,且讓它在這個正則項中。既然題目中要求這個誤差函數
E
(w)最小化,也就意味着該式對各個參數
w的導數均爲
0,由此可得:
dwidE
(w)=21n=1∑N{2[j=0∑Mwj(xn)j−tn](xn)i}+λwi=0
所以
n=1∑N{j=0∑M[(xn)i+jwj]−(xn)itn]}+λwi=n=1∑Nj=0∑M{(xn)i+jwj}−n=1∑N{(xn)itn+Nλwi}=0
所以可以看到,題目1.1中的式子基本都可以保持不變,只需將
Ti修改爲
Ti=∑n=1N{(xn)itn+Nλwi}。
Tips:上面求導的過程使用了複合函數的求導。
1.3
已知
p(B=r)=0.2,
p(B=b)=0.2,
p(B=g)=0.6,同時,
p(F=a∣B=r)=0.3,
p(F=o∣B=r)=0.4,
p(F=l∣B=r)=0.3,
p(F=a∣B=b)=0.5,
p(F=o∣B=b)=0.5,
p(F=l∣B=b)=0,
p(F=a∣B=g)=0.3,
p(F=o∣B=g)=0.3,
p(F=l∣B=g)=0.4。第一小問說,抽一次抽出蘋果的概率是多少,可通過sum rule和product rule求出,即:
p(a)=p(a,r)+p(a,b)+p(a,g)=p(a∣r)p(r)+p(a∣b)p(b)+p(a∣g)p(g)=0.34
第二小問說,在已知抽出的結果是橘子(orange)的情況下,從綠色(green)盒子中抽出這個橘子的概率是多大。這就是一個很典型的由果推因的貝葉斯公式題,相當於求
p(B=g∣F=o),根據貝葉斯公式,可得
p(g∣o)=p(o)p(o∣g)p(g),其中分母可以按照第一小問的方式求出,分子中各項均爲已知條件,求得
p(B=g∣F=o)=0.5。
1.4
已知
x=g(y),
py(y)=px(x)∣dydx∣=px(x)∣g′(y)∣,對於兩個概率分佈而言,能夠取到最大值的位置滿足導數爲
0,因此
∂y∂py(y)=∂y∂px(x)∣g′(y)∣=0,題目中假設
x=g(y)爲線性函數,因此我們假設
x=g(y)=ay+b,所以可以得到
∂y∂py(y)=∂x∂px(x)∣a∣∂y∂x=∂x∂px(x)∣a∣2=0,由於
∣a∣2>0,(
a的絕對值不應該爲
0,否則並不能稱其爲變換了),所以使得
∂x∂px(x)=0的情況下,
∂y∂py(y)也等於
0,也就是說在
x取值使得
px(x)最大的位置,這個
x對應的
y也是使得
py(y)最大的位置,而
x=g(y)=ay+b同樣滿足兩變量之間的線性關係。
1.5
式(1.38)爲
var[f]=E[(f(x)−E[f(x)])2],因此
var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2−2f(x)E[f(x)]+(E[f(x)])2],所以
var[f]=E[f(x)2]−2(E[f(x)])2+(E[f(x)])2]=E[f(x)2]−E[f(x)]2。
1.6
根據式(1.41)可知,
cov[x,y]=Ex,y[xy]−E[x]E[y]。設變量
x,
y獨立同分布,對應的分佈分別爲
p(x)與
p(y),則
Ex,y[xy]=∬xyp(xy)dxdy=∬xyp(x)p(y)dxdy=∫yq(y)∫xp(x)dxdy,由於第二個積分與第一個積分項無關(相互獨立,兩者之間沒有函數關係),因此可以拎出來,得
Ex,y[xy]=∫xp(x)dx∫yq(y)dy=E[x]E[y],所以在兩變量互相獨立的情況下,
cov[x,y]=Ex,y[xy]−E[x]E[y]=0。
1.7
令
x=rcosθ,
y=rsinθ,滿足
x2+y2=r2且
r≥0,則原來的積分式可以寫成
I2=∫−∞∞∫−∞∞exp(−2σ21x2−2σ21y2)dxdy=∫o2π∫0∞exp(−2σ21r2)rdrdθ,使用
u=r2代換,
所以
I2=21∫o2π∫0∞exp(−2σ21u)dudθ=21∫02π(−2σ2)exp(−2σ21u)∣0∞dθ=2πσ2,所以
I=(2πσ2)1/2。
1.8
式(1.46)爲
N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}=p(x−μ),即要證明
∫−∞+∞x(2πσ2)1/21exp{−2σ21(x−μ)2}dx=∫−∞∞xp(x−μ)dx=μ。先拋開該式不談,我們需要換元,且必須手頭拿到一個已知的東西,那麼我們首先有
∫−∞+∞(x−μ)(2πσ2)1/21exp{−2σ21(x−μ)2}d(x−μ)=0,這個比較簡單,根據奇函數積分爲
0可得,然後我們把這個式子在
(x−μ)這裏展開,可以看到即
∫−∞∞xp(x−μ)d(x−μ)−μ∫−∞∞p(x−μ)d(x−μ)=∫−∞∞xp(x−μ)dx−μ=0,所以
∫−∞∞xp(x−μ)dx=μ,亦即
E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ。
第二小問要求驗證式(1.50)的正確性。在題目1.7中我們得到
∫−∞∞exp(−2σ21(x−μ)2)dx=(2πσ2)1/2,在等式兩邊對
σ2求導可得
∫−∞∞exp{−2σ2(x−μ)2}(2σ2)22(x−μ)2dx=(2πσ)1/2π,將式子整理後爲:
∫−∞∞(2πσ2)1/21exp{−2σ2(x−μ)2}(x−μ)2dx=σ2=E[(x−μ)2],又因爲
E[(x−μ)2]=E[x2−2μx+μ2]=E[x2]−2μE[x]+μ2,而我們在上一小問已經知道
E[x]=μ,所以全部帶進去可得,
σ2=E[x2]−μ2,所以
E[x2]=σ2+μ2,從而證得式(1.50)。這樣一來,式(1.51)也就順理成章地成立了。
1.9
單元高斯分佈的極大值可以通過對其概率分佈函數求導得到極值對應的座標
x=μ,不做贅述。
多元高斯分佈函數爲
N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)},同樣進行求導,這裏要用到矩陣的求導法則,得
∂x∂N(x∣μ,Σ)=−21N(x∣μ,Σ)∇x{(x−μ)TΣ−1(x−μ)}=−21N(x∣μ,Σ)∇x−μ{(x−μ)TΣ−1(x−μ)},利用PRML(C.19)和(C.20)公式,令
A=(x−μ)TΣ−1,
B=x−μ,則很容易得到
∂x∂N(x∣μ,Σ)=−N(x∣μ,Σ)Σ−1(x−μ),在推導過程中需要注意的是
Σ−1(x−μ)=(x−μ)TΣ−1,這是由於
x−μ是向量所導致的。那麼根據求得的導數,同樣在
x=μ時取得極值。
1.10
E[x+z]=∬(x+z)p(x,z)dxdz=∬(x+z)p(x)p(z)dxdz=∬xp(x)p(z)dxdz+∬zp(z)p(x)dxdz
對於右側的式子,由於
x與
z相互獨立,
p(z)的積分爲1,因此第一項即爲
∫xp(x)dx=E[x],同理第二項爲
E[z],所以
E[x+z]=E[x]+E[z]。
var[x+z]=E[(x+z)2]−(E[x+z])2,代入第一小問的結果,得到所求方差爲
E[x2+z2+2xz]−(E[x]+E[x])2=E[x2]+E[z2]+2E[xz]−(E[x])2−(E[z])2−2E[x]E[z],
又根據題目1.6的結論,化簡得到
var[x+z]=E[x2]+E[z2]−(E[x])2−(E[z])2=var[x]+var[z]。
1.11
令
y=lnp(x∣μ,σ2)=−2σ21∑n=1N(xn−μ)2−2Nlnσ2−2Nln(2π),可以得到
∂μ∂y=−σ21∑n=1N(μ−xn)=0,所以
∑n=1N(μ−xn)=0,所以
∑n=1Nμ−∑n=1Nxn=Nμ−∑n=1Nxn=0,所以
μML=N1∑n=1Nxn。
∂σ2∂y=−(2σ2)22∑n=1N(xn−μML)2−2σ2N=0,很容易得到
σML2=N1∑n=1N(xn−μML)2。
1.12
這題其實第一小問挺迷的,主要問題在於爲什麼作者要使用不同的下標來表示是否獨立,或者說,如果作者你想表達這個意思,那你就應該明說啊我透。這樣子一來就比較簡單明瞭了,若
n=m,則
E[xn2]根據式(1.50)很容易得到
E[xn2]=μ2+σ2,下標爲
m時相同。若
n̸=m,那麼按照作者的意思,就是說這倆變量相互獨立,所以
E[xnxm]=E[xn]E[xm]=μ2。
其實作者是想用第一小問作爲引子來幫助我們證明式(1.57)和式(1.58),那麼實際上我是覺得沒必要這麼麻煩,我們直接證明這兩個式子即可,無需繞他給的這條彎路。
對於第一個式子,求取最大似然分佈的均值的期望,我們這裏假設總共取了
K次數據,每一次都取
N個數據來進行極大似然估計,
xkn表示第
k次取的第
n個數據,那麼
E[μML]=K1∑k=1K[N1∑n=1Nxkn]=KN1∑k=1K∑n=1Nxkn,到這裏,我們先停一下,假設我們每次取的數據有限,也就是
N有限,但是我們一直取一直取,也就是說
K無限,那麼這裏就可以看做我對整個分佈上所有的
x都取到了,從而推得
xkn的均值就是正態分佈
N(x∣μ,σ2)的均值
μ,所以
E[μML]=μ,這就證明了式(1.57)。
對於式(1.58),首先依舊採取我們之前的取數據規定,同時將方差的計算公式展開,
μkML爲第
k次取得的數據的均值,則
E[σML2]=K1∑k=1K[N1∑n=1N(xkn−μkML)2]=K1∑k=1K[N1∑n=1N(xkn2−2xknμkML+μkML2)],這就可以拆分爲三項,其中第一項與
xkn2相關,沿用上面的思路,相當於取遍了所有的
xkn,所以
K1∑k=1K[N1∑n=1Nxkn2]=E[x2]=μ2+σ2,後面兩項可以寫成
K1∑k=1K[−2μkMLN1∑n=1Nxkn]+K1∑k=1K[N1∑n=1N(μkML2)],也就是
K1∑k=1K[−2μkML2]+K1∑k=1K[μkML2]=−K1∑k=1K[μkML2],這就比較明白了,後面兩項就是
−E[μML2],因此
E[σML2]=μ2+σ2−E[μML2],所以我們就要求這個
E[μML2],這個表達式的含義就是每一次取得的數據的均值的平方的平均值(期望),那麼就有
E[μML2]=σμML2+(E[μML])2,根據公式(1.57),我們進一步得到
E[μML2]=σμML2+μ2,所以
E[σML2]=μ2+σ2−E[μML2]=σ2−σμML2,所以任務又進一步變爲求這個
σμML2=var[μML],而
var[μML]=var[N1∑n=1Nxn]=N21∑n=1Nvar[xn]=N21∑n=1Nσ2=Nσ2。
所以就有
E[σML2]=μ2+σ2−E[μML2]=σ2−Nσ2=NN−1σ2。
PS:我用MATLAB做了一下實驗,與理論完全相符,式(1.57)和式(1.58)實際上也可以從直觀上進行理解,這裏就不詳細說了。
1.13
根據題目(1.12)的推導,這題就很簡單了,將
E[μML2]代換爲
E[μ2]=μ2即可,那很顯然
E[σML2]=μ2+σ2−μ2=σ2。此時,方差的期望也就是無偏的了。
1.14
如果可以寫成題目要求的形式(設原矩陣爲
W,要寫成
W=S+A),那首先可以很容易推斷出
A的對角線上的元素都是
0,所以
S對角線上的元素就是
W對角線上的元素。接着就是要證明
S和
A的其餘元素也是可解出來的,因爲
wij=wijS+wijA,同時
wji=wjiS+wjiA=wijS−wijA,這就可以得到構成一個二元一次方程組,由於參數對應的矩陣的秩爲
2,因此方程組必然有解,所以可以寫成題目要求的形式。
∑i=1D∑j=1Dxiwijxj=xTWx=xT(S+A)x=xTSx+xTAx,現在重點關注一下
xTAx這一項,因爲
xTAx=∑i=1D∑j=1DxiwijAxj,那麼
A的對角線元素皆爲
0,同時對稱元素互爲相反數,(注意,
A和另外兩個矩陣都是方陣,這是前提條件),相當於
xiwijAxj+xjwjiAxi=0,所以
xTAx=0,所以
∑i=1D∑j=1Dxiwijxj=xTWx=xTSx+xTAx=xTSx=∑i=1D∑j=1DxiwijSxj。
最後一小問就相當於問我們矩陣
S的對角線以及上(或下)三角部分一共有幾個元素,使用數列求和的方式,我們得到
1+2+3+⋯+D=D(D+1)/2,因此獨立的元素數量就是這麼多。
1.15
根據題目1.14可知,由所有
wi1i2…iM構成的高維張量也是一個高維對稱張量,其中的獨立元素使用
w~i1i2…iM表示,此時要證明的式子就比較好理解了,由於張量的對稱性質,其餘元素都是非獨立的,因此均可不做考慮,在根據
i1至
iM確定了張量的維度順序後,假設
i1=1,那麼由於剩下的維度中非獨立元素所處的維度小於等於第一維的維度,因此
i2的上限是
i1,同理,剩下的和式也是可以推出來的。由此我們可以得到形式爲
∑i1=1D∑i2=1i1⋯∑iM=1iM−1w
i1i2⋯iMxi1xi2⋯xiM。
Tips:實際上我還是沒有想明白對稱的高維張量是長啥樣的。
接着要證明
n(D,M)=∑i=1Dn(i,M−1),這個也很簡單,就將上面第一問的結果拿來用,最外圍的求和就是在
i1從
1取到
D的過程中後方所有項的求和,而
i2到
iM一共有
M−1項,所以得證。這個遞推式還是比較直觀的。
第三小問歸納法也很直接,
D=1的情況下,
∑i=1D(i−1)!(M−1)!(i+M−2)!=(M−1)!(M−1)!=1=(D−1)!M!(D+M−1)!=(1−1)!M!(1+M−1)!=M!M!,此時等式成立,假設取數字
D時,等式成立,則
∑i=1D(i−1)!(M−1)!(i+M−2)!=(D−1)!M!(D+M−1)!,則取數字
D+1時,
∑i=1D+1(i−1)!(M−1)!(i+M−2)!=∑i=1D[(i−1)!(M−1)!(i+M−2)!]+D!(M−1)!(D+M−1)!=(D−1)!M!(D+M−1)!+D!(M−1)!(D+M−1)!=D!M!(D+M)(D+M−1)!,所以
∑i=1D+1(i−1)!(M−1)!(i+M−2)!=D!M!(D+M)!=(D+1−1)!M!(D+1+M−1)!,說明該式在
D+1時仍舊成立,從而歸納得證。
對於任意
D≥1,取
M=2,則有
n(D,M)=(D−1)!M!(D+M−1)!=(D−1)!2!(D+1)!=2D(D+1),正如我們在題目1.14中得到結果一樣。現在假設
M−1時,該式成立,即
n(D,M−1)=(D−1)!(M−1)!(D+M−2)!,而
n(D,M)=∑i=1Dn(i,M−1)=∑i=1D(i−1)!(M−1)!(i+M−2)!,又因爲
∑i=1D(i−1)!(M−1)!(i+M−2)!=(D−1)!M!(D+M−1)!,所以
n(D,M)=(D−1)!M!(D+M−1)!,所以在
M時,該式依舊成立,從而歸納得證。
1.16
第一小問很直觀,根據式(1.74)可知,
n(D,M)僅表徵了第
M階參數的獨立元素個數,現在的
N(D,M)相當於求取所有階(
0階到
M階)的獨立參數數量,因此
N(D,M)=∑m=0Mn(D,m)。
第二小問,當
M=0時,
N(D,M)=D!M!(D+M)!=1,這與實際相符,當僅含有
0階時,由於
x無關,所以實際上就一個常數項,因此參數的數量就是
1。現在假設
M時成立,即
N(D,M)=D!M!(D+M)!,則取
M+1時,
N(D,M+1)=D!M!(D+M)!+n(D,M+1)=D!M!(D+M)!+(D−1)!(M+1)!(D+M)!=D!(M+1)!(M+1)(D+M)!+D(D+M)!=D!(M+1)!(D+M+1)!,這裏使用了式(1.137)的結論,從而歸納得證。
第三小問使用了斯特林公式
n!≃nne−n,若
D≫M,則
N(D,M)=D!M!(D+M)!≃D!(D+M)!≃DDe−D(D+M)D+Me−(D+M)≃DD(D+M)D+M≃DDDD+M=DM,同理,若
M≫D,則有
N(D,M)=D!M!(D+M)!≃M!(D+M)!≃MMe−M(D+M)D+Me−(D+M)≃MM(D+M)D+M≃MMMD+M=MD,從而得證。
N(10,3)=10!3!(10+3)!=286,
N(100,3)=100!3!(100+3)!=176851。
1.17
已知
Γ(x)≡∫0∞ux−1e−udu,根據分部積分法,可以得到
Γ(x)=∫0∞−ux−1de−u=−ux−1e−u∣0∞+∫0∞e−udux−1=∫0∞e−udux−1,前半部分的積分爲
0不做贅述,簡單說明一下就是
x是有限項,而
u取無限大項時,無限大的有限次方除以
e的無限大次方時趨近於
0,你也可以用MATLAB測試一下。而
Γ(x+1)=∫0∞e−udux=∫0∞xe−udux−1=xΓ(x),得證。
Γ(1)=∫0∞e−udu=−e−u∣0∞=1,得證。
若
x爲整數,那麼
Γ(x+1)=∫0∞e−udux,式子中,微分項
ux的次冪就可以一直取下來,得到
Γ(x+1)=∫0∞e−udux=x!∫0∞e−udu=x!。
1.18
有一個疑問,式(1.142)中,爲何就稱那一項爲
SD的呢?憑什麼那一項所代表的的含義就是
D維空間中單位球體的表面積呢?我自己想了一下,但是也只是一個頭緒,我們看一下題目1.7中的計算過程,其中有一步是算到了
I2=∫o2π∫0∞exp(−2σ21r2)rdrdθ,爲了和本題結合,我們取
σ2=1/2,則有
I2=∫o2π∫0∞exp(−r2)rdrdθ,將這個公式對照題目1.18裏面的式(1.142),就可以看到,
SD就是我們算出來的這個雙重積分項
∫o2π∫0∞exp(−r2)rdrdθ除以這個積分項內層的積分,簡單來說,通過這麼一個除法,原本對於整個平面的積分(
r從
0取到
∞),變成了單位長度,同時又消除了
exp(−r2)這一項的積分影響,相當於算了一個在極小角度下的單位半徑的扇形的面積,那麼再對這個扇形進行角度上的積分,轉一圈就得到了單位圓的面積。所以式(1.142)就是這個過程在更高維空間的一個推廣。這是我的理解。
首先,根據式(1.126),可以推知,
∏i=1D∫−∞∞e−xi2dxi=πD/2,簡單說一下就是,根據式(1.126),我們知道在
D=2的時候,
∏i=12∫−∞∞e−xi2dxi=π,所以就比較明顯了。這樣子我們就有了左式的值,對於右式,可以轉化爲
SD∫0∞e−r2rD−1dr=SD21∫0∞e−r2(r2)D/2−1dr2,根據題目1.17,也就可以看出,
SD∫0∞e−r2rD−1dr=SD21Γ(D/2),所以
πD/2=SD21Γ(D/2),所以
SD=Γ(D/2)2πD/2。
同樣用簡單一點的情況來幫助我們理解複雜的高維情況,比如說我們現在知道一個單位圓的周長,如何得到單位圓的面積呢,已知單位圓周長爲
2π,面積就相當於這個單位圓向內放縮後直至變成零點的所有圓的周長積分,同時,還需要了解一個基本事實,那就是在一個
D維空間中,其體積的大小正比於
rD,而表面積則正比於
rD−1。現在我們舉的例子是在
2維空間下,因此二維單位圓面積就等於
∫012πr2−1dr=π,這也符合我們已知的先驗事實。因此,
VD=∫01SDrD−1dr=SDD1rD∣01=DSD。
D=2時,
SD=2π,
VD=π,
D=3時,
SD=4π,
VD=34π。
多說一點,PRML書中說在高維空間中,球體體積就幾乎完全貼近表面分佈,其實在
2維單位圓中這種現象就已經初現端倪了,在剛剛給出的求出單位圓面積的積分過程中,很明顯越靠近圓心的單位圓,其周長越小,對整個圓的表面積貢獻越小,而半徑越接近
1的圓其周長越大,對整個圓的表面積貢獻就越大,這種效應在高維空間中會表現得更加顯著,因爲往高維變化的過程中,周長正比於半徑的
D−1次方,次冪會加劇這種拉扯。感性理解一下就好。
1.19
半徑爲
a的
D維超球,體積就是
∫0aSDrD−1dr=SDaD/D,而邊長爲
2a的
D維超立方體體積很容易求得爲
2DaD,因此
volumeofcubevolumeofsphere=D2DSD=D2DΓ(D/2)2πD/2=D2D−1Γ(D/2)πD/2。因此在超高維空間中,單位超球的體積對於包絡住這個單位超球的超立方體而言是微不足道的。
第二小問這個直接帶進去,很容易看到趨近於
0,不做贅述。
D維空間中,邊長爲
2a的超立方體的中心到角落的距離爲
∑1Da2
=Da2
=D
a,所以其與半徑之比就是
D
。如果你要問爲什麼這麼求,其實依然是可以從簡單的情況出發的,比如說在三維空間中,你爲了求出立方體的中心到角落的距離,就是使用兩次勾股定理,相當於進行兩次降維,最終到達角落所處的點。如果從線性代數的角度來說的話,就是我們沿着標準基的方向走。還是比較好理解的。
1.20
式(1.148)可以直觀得到,在使用
r作爲隨機變量後,一個隨機變量對應的幾何形式就是「一週」,例如二維高斯分佈中,依題目中均值均爲
0,且方差相等的設置,同一
r對應的就是以原點爲中心的圓形,因此其對應的概率函數就是「周長」乘以對應的概率值,即
p(r)=(2πσ2)D/2SDrD−1exp(−2σ2r2)。
第二小問
drdp(r)=(2πσ2)D/2(D−1)SDrD−2exp(−2σ2r2)+σ2(2πσ2)D/2−SDrDexp(−2σ2r2)=0,等式兩邊除以一些共有項,則有
(rD−2)(D−1)=σ2rD,因爲
D足夠大,因此可以轉化爲
(rD−2)D≃σ2rD,所以
r^≃D
σ。
已知
p(r)∝rD−1exp(−2σ2r2)=exp{−2σ2r2+(D−1)ln(r)},需要注意,式子中省略了
(2πσ2)D/2SD這一項,在駐點附近,使用泰勒級數展開,以求出
ln(r^+ϵ),所以
p(r^+ϵ)∝exp{−2σ2(r^+ϵ)2+(D−1)ln(r^+ϵ)},而
ln(r^+ϵ)≃ln(r^)+r^1ϵ−2r^21ϵ2,放進去就可以得到
p(r^+ϵ)∝exp{−2σ2(r^+ϵ)2+(D−1)(ln(r^)+r^1ϵ−2r^21ϵ2)}=r^D−1exp(−2σ2(r^+ϵ)2+(D−1)(r^1ϵ−2r^21ϵ2)),在指數項中代入
r^≃D
σ,同時由於
D很大,因此得到
p(r^+ϵ)∝r^D−1exp(−2σ2(r^+ϵ)2+2σ22r^ϵ−ϵ2),也就是
p(r^+ϵ)∝r^D−1exp(−2σ2r^2−2σ22ϵ2),所以
p(r^+ϵ)=p(r^)exp(−σ2ϵ2)。這裏我算出來和題目給的不一樣,我檢查了好幾遍,級數展開那邊是沒有問題的。留待觀察吧。
p(∣∣x∣∣=0)=(2πσ2)D/21,
p(∣∣x∣∣=r^)=(2πσ2)D/21exp(−D/2),因此
p(∣∣x∣∣=0)=p(∣∣x∣∣=r^)exp(−D/2)。
1.21
因爲
0≤a≤b,所以
a2≤ab,所以
a≤(ab)1/2。
[外鏈圖片轉存失敗(img-2amJrAcX-1565057031898)(.\curve.jpg)]
這裏我按照書中的Figure 1.24繪製了上圖,按照最小化誤差率進行了分割,那麼可以看到,兩條概率曲線是有重合的部分的,我設其對應的隨機變量取值分別爲
K1和
K3,而分割處對應的隨機變量爲
K2,由式(1.78)可知,
p(mistake)=∫R1p(x,C2)dx+∫R2p(x,C1)dx,那麼根據上面這種圖片(左峯是
p(x,C1)),我們更加精確地表達這個式子,即
p(mistake)=∫K1K2p(x,C2)dx+∫K2K3p(x,C1)dx=
a,而在隨機變量取值
K1至
K3之間的全部面積,其面積大小爲
b=∫K1K2p(x,C1)dx+∫K2K3p(x,C2)dx,可以看到
0≤a≤b,因此就有
p(mistake)≤(ab)1/2,積分決定了兩項之間是否能夠相乘,因此就有
(ab)1/2=∫K1K3{p(x,C1)p(x,C2)}1/2dx,從而得證。
1.22
根據式(1.80)可知,當損失矩陣按照題目的意思設置時,
E[L]=∑k∑j(j̸=k)∫Rjp(x,Ck)dx,此時該式就相當於最小化
p(mistake)因此也就相當於退化爲,誰的後驗概率大就取誰的值。簡單來說就是,這種損失矩陣對於所有的錯誤判斷都一視同仁,權重都是
1,那這時候有沒有這個損失矩陣都沒差別了。也就變成了前一小節所說的最小化錯誤分類概率。
1.23
對於某一類,如
Cj,按照式(1.81),就相當於對該類最小化
∑kLkjp(Ck∣x),而
p(Ck∣x)=p(x)p(x∣Ck)p(Ck),所以就要最小化
∑kLkjp(x)p(x∣Ck)p(Ck)。
1.24
這題我剛開始做是比較懵逼的,主要是看不懂題目,太難翻譯了有木有。來,我給大家準確梳理一下這道題的意思,分類問題中可以引入損失的權重來計算期望損失,並儘可能最小化該值,先不管什麼拒絕選項,那我們可以根據式(1.81)知道,當新來了一個
x的時候,我要做的就是遍歷所有的
j,然後看哪個
j帶進去的時候,
∑kLkjp(Ck∣x)能取到最小值,而且按照書中的說法,決策論乾的這些個事都很簡單,畢竟推斷的階段,把那些個求解過程中需要的概率分佈都給決策論準備好了。那麼現在,我們再引入拒絕選項這個概念,所謂拒絕選項的含義就是,比如說在二分類問題中,就比如上面那張圖片,在
K2處,這倆的概率是完全相同的,如果從後驗概率的角度來說,就是這倆「五五開」。這種時候,數學也很爲難,拒絕選項就可以在這種接近於五五開的情況下做出拒絕判斷的選擇。而題目中給出的
λ就是在使用期望分類損失之後引入的「損失閾值」,說實話,光看題目我愣是沒有抿出
λ是這個意思,看了solution又悟了好久才把作者的整個思路弄明白。那就很簡單了,所謂的決策就是,在能夠使得
∑kLkjp(Ck∣x)取得最小值的情況下,如果該值還是超過
λ,就拒絕,其他情況就分類爲能夠使得
∑kLkjp(Ck∣x)最小的那個第
j類。在
Lkj=1−Ikj的情況下,與題目1.22一致,此時所有後驗分佈一視同仁,不厚此薄彼,根據sum rule,就可以得到
∑kp(Ck∣x)=1−p(Cj∣x),這時候,就是最開始我們接觸的沒有權重的拒絕選項了。對比Figure 1.26,也很容易得到
λ=1−θ。
1.25
已知
E[L(t,y(x))]=∬∣∣y(x)−t∣∣2p(x,t)dxdt,所以可得
δy(x)δE[L(t,y(x))]=2∫{y(x)−t}p(x,t)dt=0,所以可得
y(x)∫p(x,t)dt=∫tp(x,t)dt。根據sum rule,可推知
y(x)p(x)=∫tp(x,t)dt,所以
y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]。很明顯,如果目標量由向量
t變爲標量
t,則對應的結果就退化爲式(1.89),即
y(x)=Et[t∣x]。
1.26
這道題很簡單,依葫蘆畫瓢即可,那些過程和繁雜的公式我寧可不耗費時間去把它打出來,我有一個疑問,那就是爲什麼中間的那個交叉項消失了?
先來看式(1.90)的推導過程中的那個式子
{y(x)−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2,中間的交叉項在積分過程中即
∬2{y(x)−E[t∣x]}{E[t∣x]−t}p(x,t)dxdt,注意,式子中,
E[t∣x]是
Et[t∣x]的簡寫,所以
E[t∣x]是關於
x的表達式,中間項的積分即
2∬{y(x)E[t∣x]−y(x)t−(E[t∣x])2+tE[t∣x]}p(x,t)dxdt,這裏說白了就是四項之和的雙重積分,一項一項來看,忽略掉最前面的係數
2,第一項爲
∬y(x)E[t∣x]p(x,t)dxdt=∫y(x)E[t∣x]∫p(x,t)dtdx=∫y(x)E[t∣x]p(x)dx,第二項爲
∬−y(x)tp(x,t)dxdt=∫−y(x)p(x)∫tp(x)p(x,t)dtdx=∫−y(x)p(x)E[t∣x]dx,這樣一來,第一項和第二項就抵消了,第三項爲
∬−(E[t∣x])2p(x,t)dxdt=∫−(E[t∣x])2∫p(x,t)dtdx=∫−(E[t∣x])2p(x)dx,第四項爲
∬tE[t∣x]p(x,t)dxdt=∫E[t∣x]p(x)∫tp(x)p(x,t)dtdx=∫(E[t∣x])2p(x)dx,這樣一來,第三項和第四項也抵消了,如此即可得到式(1.90)的結果。
本題實際上是一樣的推導過程,只是由於變成了向量,在處理時需要注意中間項變爲了
(y(x)−E[t∣x])T(E[t∣x]−t)+(E[t∣x]−t)T(y(x)−E[t∣x]),因此最終結果可以寫成
E[L]=∫∣∣y(x)−E[t∣x]∣∣2p(x)dx+∫var[t∣x]p(x)dx。
1.27
實話說,看到這題的我也是懵逼的,說起來很簡單,就是要保證
E[Lq]可微,且其微分等於
0是有解的。但是問題來了,對誰微分呢?考慮到問題中問的是
y(x)需要滿足的條件,而雙重積分的微分也是相當棘手,所以最終我還是翻看了solution。作者的意思是既然
y(x)是由我們選擇的,同時
p(t,x)正比於
p(t∣x),那麼這個雙重積分也就可以表達爲
∫∣y(x)−t∣qp(t∣x)dt,在這個式子基礎上,對
y(x)進行微分,得到
∫q∣y(x)−t∣q−1sign(y(x)−t)p(t∣x)dt=0,本來走到這一步我覺得我勉強能夠理解(其實已經很困難了好嘛),作者又一波神奇操作,將其變爲
q(∫−∞y(x)∣y(x)−t∣q−1p(t∣x)dt−∫y(x)∞∣y(x)−t∣q−1p(t∣x)dt)=0,所以要滿足的條件就是
∫−∞y(x)∣y(x)−t∣q−1p(t∣x)dt=∫y(x)∞∣y(x)−t∣q−1p(t∣x)dt。真的看不大懂每一步操作的理由是什麼。
好了我編不下去了,上面幾乎就是把solution翻譯了一遍,我選擇放棄,再想想看。
看了一段時間,稍微有了一些想法,可以看一下式(1.88),我們不妨就從這個角度切入。爲什麼選擇這個角度?因爲正是式(1.88)到式(1.89)的推導過程,推出了在
q=2的情況下,條件均值爲
y(x)最優解。因此,我們二話不說依葫蘆畫瓢進行微分(這裏使用到了變分法,不做贅述),得到了
δy(x)δE[L]=q∫∣y(x)−t∣q−1sign(y(x)−t)p(x,t)dt=0。那麼之所以要使用
y(x)來進行區間的劃分,也是爲了簡化該式的符號項,這纔有了
q(∫−∞y(x)(t−y(x))q−1p(t∣x)dt+∫y(x)∞(y(x)−t)q−1p(t∣x)dt)=0,這樣符號關係就對了,之後再轉換一下正負號,將兩部分分別挪至等號兩側,就有了
∫−∞y(x)(y(x)−t)q−1p(t∣x)dt=∫y(x)∞(y(x)−t)q−1p(t∣x)dt。
如果
q=1,則有
y(x)滿足
∫−∞y(x)p(t∣x)dt=∫y(x)∞p(t∣x)dt,也就是說
p(t∣x)在
t<y(x)的區域中與
t≥p(t∣x)的區域上積分大小相同,此時
y(x)所在的位置也就是題目所謂的條件中數的含義。
如果
q→0,
∣y(x)−t∣q趨近於
1,這樣的話
∫∣y(x)−t∣qp(t∣x)dt也就趨近於
1。但是當
y(x)與
t之間的距離同樣非常靠近時,
∣y(x)−t∣q趨近於
1這一點就要打個問號了,這種情況下,
∣y(x)−t∣q會比
1還要小一些(可以使用MATLAB進行驗證)。這樣一來,能夠使得這個「小一些」足夠小的
y(x)也就要儘可能靠近出現概率最大的
t值,此時,相當於
y(x)就是條件分佈的衆數。
1.28
n爲正整數爲前提條件下,
h(p2)=h(p)+h(p)=2h(p),
h(pn)=h(p)+⋯+h(p)=nh(p)。
m爲正整數爲前提條件下,
h(pn/m)=nh(p1/m)=mnmh(p1/m)=mnh(p)。這裏你可以將
p1/m看成上面公式中的
p,視其爲一個整體,因爲題中對
p是沒有任何要求的。這樣一來,就可以看到,對於任何一個正整數
x,
h(px)=xh(p)。
最後一小問沒啥意思,不證了。
1.29
H[x]=∑i=1M−p(xi)lnp(xi)=∑i=1Mp(xi)lnp(xi1),
ln函數是一個concave函數,因此
f(∑i=1Mλixi)≥∑i=1Mλif(xi),這裏
p(xi)即
λi,滿足
λi所需的條件,因此
∑i=1Mp(xi)ln(p(xi)1)≤ln(∑i=1Mp(xi)p(xi)1=lnM)。
所以
H[x]≤lnM。
1.30
在
KL散度的表達中,我一直有一個疑問,就是爲什麼我們預估的分佈
q(x)的信息熵是
−∫p(x)lnq(x)dx,而不是
−∫q(x)lnp(x)dx,最終覺得這是因爲按照後者那樣去寫的話,所謂的編碼平均附加信息量這個表達式,也就是
KL散度的數學表達式並不具有良好的數學性質,利用不到convex函數的相關性質。因此才使用了前者那種表達,但是我還想從更加合理的角度來看待這樣做的原因。
KL(p∣∣q)=−∫p(x)ln{p(x)q(x)}dx=∫p(x){lnp(x)−lnq(x)}dx=∫p(x){ln(2πσ2)1/21exp(−2σ2(x−μ)2)−ln(2πs2)1/21exp(−2s2(x−m)2)}dx=∫p(x){−ln(2πσ2)1/2−2σ2(x−μ)2+ln(2πs2)1/2+2s2(x−m)2}dx=∫p(x){lnσs}dx−2σ21∫p(x)(x−μ)2dx+2s21∫p(x)(x−m)2dx=lnσs+2s21∫p(x)(x−m)2dx−21=lnσs+2s21∫p(x)(x2−2mx+m2)dx−21=lnσs+2s21(μ2+σ2−2mμ+m2)−21=lnσs+2s2(μ−m)2+σ2−21
1.31
H[x,y]=−∬p(x,y)lnp(x,y)dydx=−∬p(x,y)lnp(y∣x)dydx−∬p(x,y)lnp(x)dydx=−∬p(x,y)lnp(y∣x)dydx−∫lnp(x)∫p(x,y)dydx=H[y∣x]−∫lnp(x)p(x)dx=H[y∣x]+H[x]
H[x]+H[y]=−∫p(x)lnp(x)dx−∫p(y)lnp(y)dy=−∬p(x,y)lnp(x)dydx−∬p(x,y)lnp(y)dydx=−∬p(x,y)lnp(x)p(y)dydx
要證明
H[x,y]≤H[x]+H[y],即變爲證明
−∬p(x,y)lnp(x,y)dydx≤−∬p(x,y)lnp(x)p(y)dydx
根據互信息的定義,我們有
I[x,y]=KL(p(x,y)∣∣p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y))dydx
且
I[x,y]≥0,當且僅當兩變量互相獨立時等號才成立。所以
−∬p(x,y)ln(p(x,y)p(x)p(y))dydx=−∬p(x,y)ln(p(x)p(y))dydx+∬p(x,y)lnp(x,y)dydx≥0
所以得到
−∬p(x,y)lnp(x,y)dydx≤−∬p(x,y)lnp(x)p(y)dydx
結論成立,且只有在兩變量相互獨立時等號才成立。
實話說我感覺我這個是僞證明,因爲利用了互信息這個先驗知識,但是其實也沒差,互信息本身就是一種
KL散度,因此必然大於等於
0。看了一眼solution給出的解法,我覺得相當奇怪,既然作者已經利用了互信息這個條件,爲什麼還整得那麼繞?
1.32
非奇異的隨機變量線性變換不會改變隨機變量的概率密度值,因此
p(Ax)=p(y),同時在概率密度一節中有提及:
p(x)∣δx∣=p(y)∣δy∣,所以有
p(x)=p(y)∣δxδy∣=p(y)∣A∣,所以
H[y]=−∫p(Ax)ln(p(Ax))dx=−∫p(x)ln(p(x)∣A∣−1)dx=−∫p(x)ln(x)dx−∫p(x)ln(∣A∣−1)dx=H[x]+ln(∣A∣)
1.33
已知
H[x,y]=H[y∣x]+H[x]。現在
H[y∣x]=0,所以
H[x,y]=H[x]。因此
−∬p(x,y)lnp(x,y)dydx=−∬p(x,y)lnp(x)dydx
所以
p(x,y)=p(x),又因爲
p(x,y)=p(y∣x)p(x),從而得到
p(y∣x)=1,也就是說,在知道了
x的前提條件下,
y是多少一下子就知道了(因爲概率爲
1,所以說明對於一個固定的
x,就只有一個固定的
y與之對應),也就是說
y與
x之間有着對應的函數關係。這個函數關係並不一定是一一對應的,而只是要求在
x確定了的情況下,只有一個
y與之對應,這是不排除一個相同的
y對應多個不同的
x這種情況的。
1.34
泛函
F爲:
−∫−∞∞p(x)lnp(x)dx+λ1(∫−∞∞p(x)dx−1)+λ2(∫−∞∞xp(x)dx−μ)+λ3(∫−∞∞(x−μ)2p(x)dx−σ2)
整理可得:
∫−∞∞{−p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(x−μ)2p(x)}dx+{−λ1−λ2μ−λ3σ2)}
令
G=−p(x)lnp(x)+λ1p(x)+λ2xp(x)+λ3(x−μ)2p(x)
則有
dp(x)dG=−lnp(x)−1+λ1+λ2x+λ3(x−μ)2=0
所以
p(x)=exp(−1+λ1+λ2x+λ3(x−μ)2)。
這裏參考了Appendix D章節的變分法內容。
1.35
p(x)=(2πσ2)1/21exp{−2σ2(x−μ)2},所以有
H[x]=−∫p(x)lnp(x)dx=−∫(2πσ2)1/21exp{−2σ2(x−μ)2}ln(2πσ2)1/21exp{−2σ2(x−μ)2}dx=∫p(x)(ln((2πσ2)1/2))dx+∫p(x)(2σ2(x−μ)2)dx=21ln(2πσ2)+21=2ln(2πσ2)+1
注意其中有一步是由方差的計算公式得來的。
1.36
根據泰勒展開式,可得
f(x)=f(x0)+f′(x0)(x−x0)+21f′′(x0)(x−x0)2
由於
f′′(x0)>0,因此
21f′′(x0)(x−x0