Pattern Recognition and Machine Learning: Chapter 01習題詳解

PRML_Exercises

Pattern Recognition and Machine Learning習題中文詳解

歡迎討論題目(我把本身作的過程貼出來也是爲了更方便討論),禁止一切形式的轉載。

關於排版,實話說我也想把公式排得舒服好看一些,奈何着實費力,這着實不太討喜,見諒。

Chapter 1

1.1

可以使得式(1.2)給出的偏差函數最小的參數 w = { w i } \mathbf{w}=\{w_i\} 就是使得偏差爲 0 0 的參數,那麼就知足
j = 0 M w j x n j = t n \sum_{j=0}^{M}w_jx_n^j=t_n
而咱們要作的這道證實題的右式
T i = n = 1 N ( x n ) i t n T_i=\sum_{n=1}^{N}(x_n)^it_n
直接將上述咱們已知的 t n t_n 代入,得
T i = n = 1 N [ ( x n ) i j = 0 M w j ( x n ) j ] T_i=\sum_{n=1}^N[(x_n)^i\sum_{j=0}^{M}w_j(x_n)^j]
又因爲 ( x n ) i (x_n)^i 不含有與 j j 相關的係數,因此能夠將其放入後面的求和項,即
T i = n = 1 N j = 0 M ( x n ) i w j ( x n ) j T_i=\sum_{n=1}^N\sum_{j=0}^{M}(x_n)^iw_j(x_n)^j
再互換一下求和順序
T i = j = 0 M n = 1 N ( x n ) i w j x n j = j = 0 M n = 1 N ( x n ) i + j w j T_i=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^iw_jx_n^j=\sum_{j=0}^{M}\sum_{n=1}^N(x_n)^{i+j}w_j
其中就能夠看到 n = 1 N ( x n ) i + j \sum_{n=1}^N(x_n)^{i+j} 就是題目中的 A i j A_{ij} 了,從而得證。html

1.2

已知
E ~ ( w ) = 1 2 n = 1 N { y ( x n , w ) t n } 2 + λ 2 w 2 \widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2}
其中 w 2 w T w = w 0 2 + w 1 2 + + w M 2 \|\mathbf{w}\|^{2} \equiv \mathbf{w}^{\mathrm{T}} \mathbf{w}=w_{0}^{2}+w_{1}^{2}+\ldots+w_{M}^{2} ,這裏提一下正則項裏面的 w 0 2 w_0^2 ,做者說一般來說這一項要麼不放正則項中,要麼使用另外一個 λ \lambda 對其進行大小控制,不過我們這裏爲了公式的推導方便就不作特殊處理,且讓它在這個正則項中。既然題目中要求這個偏差函數 E ~ ( w ) \widetilde{E}(\mathbf{w}) 最小化,也就意味着該式對各個參數 w w 的導數均爲 0 0 ,由此可得:
d E ~ ( w ) d w i = 1 2 n = 1 N { 2 [ j = 0 M w j ( x n ) j t n ] ( x n ) i } + λ w i = 0 \frac{\mathrm{d}\widetilde{E}(\mathbf{w})}{\mathrm{d}w_i}=\frac{1}{2}\sum_{n=1}^{N}\{2[\sum_{j=0}^{M}w_j(x_n)^j-t_n](x_n)^i\}+\lambda w_i=0
因此
n = 1 N { j = 0 M [ ( x n ) i + j w j ] ( x n ) i t n ] } + λ w i = n = 1 N j = 0 M { ( x n ) i + j w j } n = 1 N { ( x n ) i t n + λ w i N } = 0 \sum_{n=1}^{N}\{\sum_{j=0}^{M}[(x_n)^{i+j}w_j]-(x_n)^it_n]\}+\lambda w_i=\sum_{n=1}^{N}\sum_{j=0}^{M}\{(x_n)^{i+j}w_j\}-\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\}=0
因此能夠看到,題目1.1中的式子基本均可以保持不變,只需將 T i T_i 修改成 T i = n = 1 N { ( x n ) i t n + λ w i N } T_i=\sum_{n=1}^{N}\{(x_n)^{i}t_n+\frac{\lambda w_i}{N}\} web

Tips:上面求導的過程使用了複合函數的求導。app

1.3

已知 p ( B = r ) = 0.2 p(B=r)=0.2 p ( B = b ) = 0.2 p(B=b)=0.2 p ( B = g ) = 0.6 p(B=g)=0.6 ,同時, p ( F = a B = r ) = 0.3 p(F=a|B=r)=0.3 p ( F = o B = r ) = 0.4 p(F=o|B=r)=0.4 p ( F = l B = r ) = 0.3 p(F=l|B=r)=0.3 p ( F = a B = b ) = 0.5 p(F=a|B=b)=0.5 p ( F = o B = b ) = 0.5 p(F=o|B=b)=0.5 p ( F = l B = b ) = 0 p(F=l|B=b)=0 p ( F = a B = g ) = 0.3 p(F=a|B=g)=0.3 p ( F = o B = g ) = 0.3 p(F=o|B=g)=0.3 p ( F = l B = g ) = 0.4 p(F=l|B=g)=0.4 。第一小問說,抽一次抽出蘋果的機率是多少,可經過sum rule和product rule求出,即:
p ( a ) = p ( a , r ) + p ( a , b ) + p ( a , g ) = p ( a r ) p ( r ) + p ( a b ) p ( b ) + p ( a g ) p ( g ) = 0.34 p(a)=p(a,r)+p(a,b)+p(a,g)=p(a|r)p(r)+p(a|b)p(b)+p(a|g)p(g)=0.34
第二小問說,在已知抽出的結果是橘子(orange)的狀況下,從綠色(green)盒子中抽出這個橘子的機率是多大。這就是一個很典型的由果推因的貝葉斯公式題,至關於求 p ( B = g F = o ) p(B=g|F=o) ,根據貝葉斯公式,可得 p ( g o ) = p ( o g ) p ( g ) p ( o ) p(g|o)=\frac{p(o|g)p(g)}{p(o)} ,其中分母能夠按照第一小問的方式求出,分子中各項均爲已知條件,求得 p ( B = g F = o ) = 0.5 p(B=g|F=o)=0.5 ide

1.4

已知 x = g ( y ) x=g(y) p y ( y ) = p x ( x ) d x d y = p x ( x ) g ( y ) p_y(y)=p_x(x)|\frac{\mathrm{d}x}{\mathrm{d}y}|=p_x(x)|g^{\prime}(y)| ,對於兩個機率分佈而言,可以取到最大值的位置知足導數爲 0 0 ,所以 p y ( y ) y = p x ( x ) g ( y ) y = 0 \frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|g^{\prime}(y)|}{\partial y}=0 ,題目中假設 x = g ( y ) x=g(y) 爲線性函數,所以咱們假設 x = g ( y ) = a y + b x=g(y)=ay+b ,因此能夠獲得 p y ( y ) y = p x ( x ) a x x y = p x ( x ) x a 2 = 0 \frac{\partial p_y(y)}{\partial y}=\frac{\partial p_x(x)|a|}{\partial x}\frac{\partial x}{\partial y}=\frac{\partial p_x(x)}{\partial x}|a|^2=0 ,因爲 a 2 > 0 |a|^2 > 0 ,( a a 的絕對值不該該爲 0 0 ,不然並不能稱其爲變換了),因此使得 p x ( x ) x = 0 \frac{\partial p_x(x)}{\partial x}=0 的狀況下, p y ( y ) y \frac{\partial p_y(y)}{\partial y} 也等於 0 0 ,也就是說在 x x 取值使得 p x ( x ) p_x(x) 最大的位置,這個 x x 對應的 y y 也是使得 p y ( y ) p_y(y) 最大的位置,而 x = g ( y ) = a y + b x=g(y)=ay+b 一樣知足兩變量之間的線性關係。svg

1.5

式(1.38)爲 var [ f ] = E [ ( f ( x ) E [ f ( x ) ] ) 2 ] \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] ,所以 var [ f ] = E [ ( f ( x ) E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 2 f ( x ) E [ f ( x ) ] + ( E [ f ( x ) ] ) 2 ] \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]=\mathbb{E}[f(x)^2-2f(x)\mathbb{E}[f(x)]+(\mathbb{E}[f(x)])^2] ,因此 var [ f ] = E [ f ( x ) 2 ] 2 ( E [ f ( x ) ] ) 2 + ( E [ f ( x ) ] ) 2 ] = E [ f ( x ) 2 ] E [ f ( x ) ] 2 \operatorname{var}[f]=\mathbb{E}[f(x)^2]-2(\mathbb{E}[f(x)])^2+(\mathbb{E}[f(x)])^2]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} 函數

1.6

根據式(1.41)可知, cov [ x , y ] = E x , y [ x y ] E [ x ] E [ y ] \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned} 。設變量 x x y y 獨立同分布,對應的分佈分別爲 p ( x ) p(x) p ( y ) p(y) ,則 E x , y [ x y ] = x y p ( x y ) d x d y = x y p ( x ) p ( y ) d x d y = y q ( y ) x p ( x ) d x d y \mathbb{E}_{x, y}[x y]=\iint xyp(xy)\mathrm{d}x\mathrm{d}y=\iint xyp(x)p(y)\mathrm{d}x\mathrm{d}y= \int yq(y)\int xp(x)\mathrm{d}x\mathrm{d}y ,因爲第二個積分與第一個積分項無關(相互獨立,二者之間沒有函數關係),所以能夠拎出來,得 E x , y [ x y ] = x p ( x ) d x y q ( y ) d y = E [ x ] E [ y ] \mathbb{E}_{x, y}[x y]=\int xp(x)\mathrm{d}x\int yq(y)\mathrm{d}y=\mathbb{E}[x]\mathbb{E}[y] ,因此在兩變量互相獨立的狀況下, cov [ x , y ] = E x , y [ x y ] E [ x ] E [ y ] = 0 \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}=0 測試

1.7

x = r cos θ x=r \cos \theta y = r sin θ y=r\sin \theta ,知足 x 2 + y 2 = r 2 x^2+y^2=r^2 r 0 r\ge 0 ,則原來的積分式能夠寫成 I 2 = exp ( 1 2 σ 2 x 2 1 2 σ 2 y 2 ) d x d y = o 2 π 0 exp ( 1 2 σ 2 r 2 ) r d r d θ I^{2}=\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} x^{2}-\frac{1}{2 \sigma^{2}} y^{2}\right) \mathrm{d} x \mathrm{d} y=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta ,使用 u = r 2 u=r^2 代換,ui

因此 I 2 = 1 2 o 2 π 0 exp ( 1 2 σ 2 u ) d u d θ = 1 2 0 2 π ( 2 σ 2 ) exp ( 1 2 σ 2 u ) 0 d θ = 2 π σ 2 I^{2}=\frac{1}{2}\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}u)\mathrm{d}u\mathrm{d}\theta=\frac{1}{2}\int_{0}^{2\pi}(-2\sigma^2)\exp(-\frac{1}{2\sigma^2}u)|_0^{\infty}\mathrm{d}\theta=2\pi\sigma^2 ,因此 I = ( 2 π σ 2 ) 1 / 2 I=\left(2 \pi \sigma^{2}\right)^{1 / 2} 編碼

1.8

式(1.46)爲 N ( x μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } = p ( x μ ) \mathcal{N}\left(x | \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}=p(x-\mu) ,即要證實 + x 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } d x = x p ( x μ ) d x = μ \int_{-\infty}^{+\infty}x\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}x=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu 。先拋開該式不談,咱們須要換元,且必須手頭拿到一個已知的東西,那麼咱們首先有 + ( x μ ) 1 ( 2 π σ 2 ) 1 / 2 exp { 1 2 σ 2 ( x μ ) 2 } d ( x μ ) = 0 \int_{-\infty}^{+\infty}(x-\mu)\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}\mathrm{d}(x-\mu)=0 ,這個比較簡單,根據奇函數積分爲 0 0 可得,而後咱們把這個式子在 ( x μ ) (x-\mu) 這裏展開,能夠看到即 x p ( x μ ) d ( x μ ) μ p ( x μ ) d ( x μ ) = x p ( x μ ) d x μ = 0 \int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}(x-\mu)-\mu\int_{-\infty}^{\infty}p(x-\mu)\mathrm{d}(x-\mu)=\int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x-\mu=0 ,因此 x p ( x μ ) d x = μ \int_{-\infty}^{\infty}xp(x-\mu)\mathrm{d}x=\mu ,亦即 E [ x ] = N ( x μ , σ 2 ) x d x = μ \mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x | \mu, \sigma^{2}\right) x \mathrm{d} x=\mu spa

第二小問要求驗證式(1.50)的正確性。在題目1.7中咱們獲得 exp ( 1 2 σ 2 ( x μ ) 2 ) d x = ( 2 π σ 2 ) 1 / 2 \int_{-\infty}^{\infty} \exp \left(-\frac{1}{2 \sigma^{2}} (x-\mu)^{2}\right) \mathrm{d} x = \left(2 \pi \sigma^{2}\right)^{1 / 2} ,在等式兩邊對 σ 2 \sigma^2 求導可得 exp { ( x μ ) 2 2 σ 2 } 2 ( x μ ) 2 ( 2 σ 2 ) 2 d x = π ( 2 π σ ) 1 / 2 \int_{-\infty}^{\infty}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}\frac{2(x-\mu)^2}{(2\sigma^2)^2}\mathrm{d}x=\frac{\pi}{(2\pi \sigma)^{1/2}} ,將式子整理後爲: 1 ( 2 π σ 2 ) 1 / 2 exp { ( x μ ) 2 2 σ 2 } ( x μ ) 2 d x = σ 2 = E [ ( x μ ) 2 ] \int_{-\infty}^{\infty}\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}(x-\mu)^2\mathrm{d}x= \sigma^{2}=\mathbb{E}[(x-\mu)^2] ,又由於 E [ ( x μ ) 2 ] = E [ x 2 2 μ x + μ 2 ] = E [ x 2 ] 2 μ E [ x ] + μ 2 \mathbb{E}[(x-\mu)^2]=\mathbb{E}[x^2-2\mu x+\mu^2]=\mathbb{E}[x^2]-2\mu\mathbb{E}[x]+\mu^2 ,而咱們在上一小問已經知道 E [ x ] = μ \mathbb{E}[x]=\mu ,因此所有帶進去可得, σ 2 = E [ x 2 ] μ 2 \sigma^2=\mathbb{E}[x^2]-\mu^2 ,因此 E [ x 2 ] = σ 2 + μ 2 \mathbb{E}[x^2]=\sigma^2+\mu^2 ,從而證得式(1.50)。這樣一來,式(1.51)也就瓜熟蒂落地成立了。

1.9

單元高斯分佈的極大值能夠經過對其機率分佈函數求導獲得極值對應的座標 x = μ x=\mu ,不作贅述。

多元高斯分佈函數爲 N ( x μ , Σ ) = 1 ( 2 π ) D / 2 1 Σ 1 / 2 exp { 1 2 ( x μ ) T Σ 1 ( x μ ) } \mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} ,一樣進行求導,這裏要用到矩陣的求導法則,得 N ( x μ , Σ ) x = 1 2 N ( x μ , Σ ) x { ( x μ ) T Σ 1 ( x μ ) } = 1 2 N ( x μ , Σ ) x μ { ( x μ ) T Σ 1 ( x μ ) } \frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\}=-\frac{1}{2}\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})\nabla_{\mathbf{x}-\boldsymbol{\mu}}\left\{(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} ,利用PRML(C.19)和(C.20)公式,令 A = ( x μ ) T Σ 1 \mathbf{A}=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \boldsymbol{\Sigma}^{-1} B = x μ \mathbf{B}=\mathbf{x}-\boldsymbol{\mu} ,則很容易獲得 N ( x μ , Σ ) x = N ( x μ , Σ ) Σ 1 ( x μ ) \frac{\partial\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma})}{\partial \mathbf{x}}=-\mathcal{N}(\mathbf{x} | \boldsymbol{\mu}, \mathbf{\Sigma}) \boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu}) ,在推導過程當中須要注意的是 Σ 1 ( x μ ) = ( x μ ) T Σ 1 {\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})=(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}}{\Sigma}^{-1} ,這是因爲 x μ \mathbf{x}-\boldsymbol{\mu} 是向量所致使的。那麼根據求得的導數,一樣在 x = μ \mathbf{x}=\boldsymbol{\mu} 時取得極值。

1.10

E [ x + z ] = ( x + z ) p ( x , z ) d x d z = ( x + z ) p ( x ) p ( z ) d x d z = x p ( x ) p ( z ) d x d z + z p ( z ) p ( x ) d x d z \mathbb{E}[x+z]=\iint (x+z)p(x,z)\mathrm{d}x\mathrm{d}z=\iint (x+z)p(x)p(z)\mathrm{d}x\mathrm{d}z=\iint xp(x)p(z)\mathrm{d}x\mathrm{d}z+\iint zp(z)p(x)\mathrm{d}x\mathrm{d}z

對於右側的式子,因爲 x x z z 相互獨立, p ( z ) p(z) 的積分爲1,所以第一項即爲 x p ( x ) d x = E [ x ] \int xp(x)\mathrm{d}x=\mathbb{E}[x] ,同理第二項爲 E [ z ] \mathbb{E}[z] ,因此 E [ x + z ] = E [ x ] + E [ z ] \mathbb{E}[x+z]=\mathbb{E}[x]+\mathbb{E}[z]

var [ x + z ] = E [ ( x + z ) 2 ] ( E [ x + z ] ) 2 \operatorname{var}[x+z]=\mathbb{E}[(x+z)^2]-(\mathbb{E}[x+z])^2 ,代入第一小問的結果,獲得所求方差爲 E [ x 2 + z 2 + 2 x z ] ( E [ x ] + E [ x ] ) 2 = E [ x 2 ] + E [ z 2 ] + 2 E [ x z ] ( E [ x ] ) 2 ( E [ z ] ) 2 2 E [ x ] E [ z ] \mathbb{E}[x^2+z^2+2xz]-(\mathbb{E}[x]+\mathbb{E}[x])^2=\mathbb{E}[x^2]+\mathbb{E}[z^2]+2\mathbb{E}[xz]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2-2\mathbb{E}[x]\mathbb{E}[z]

又根據題目1.6的結論,化簡獲得 var [ x + z ] = E [ x 2 ] + E [ z 2 ] ( E [ x ] ) 2 ( E [ z ] ) 2 = var [ x ] + var [ z ] \operatorname{var}[x+z]=\mathbb{E}[x^2]+\mathbb{E}[z^2]-(\mathbb{E}[x])^2-(\mathbb{E}[z])^2=\operatorname{var}[x]+\operatorname{var}[z]

1.11

y = ln p ( x μ , σ 2 ) = 1 2 σ 2 n = 1 N ( x n μ ) 2 N 2 ln σ 2 N 2 ln ( 2 π ) y=\ln p\left(\mathbf{x} | \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi) ,能夠獲得 y μ = 1 σ 2 n = 1 N ( μ x n ) = 0 \frac{\partial y}{\partial \mu}=-\frac{1}{\sigma^2}\sum_{n=1}^{N}(\mu-x_n)=0 ,因此 n = 1 N ( μ x n ) = 0 \sum_{n=1}^{N}(\mu-x_n)=0 ,因此 n = 1 N μ n = 1 N x n = N μ n = 1 N x n = 0 \sum_{n=1}^{N}\mu-\sum_{n=1}^{N}x_n=N\mu-\sum_{n=1}^{N}x_n=0 ,因此 μ M L = 1 N n = 1 N x n \mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}

y σ 2 = 2 ( 2 σ 2 ) 2 n = 1 N ( x n μ M L ) 2 N 2 σ 2 = 0 \frac{\partial y}{\partial \sigma^2}=-\frac{2}{(2\sigma^2)^2}\sum_{n=1}^{N}(x_n-\mu_{\mathrm{ML}})^2-\frac{N}{2\sigma^2}=0 ,很容易獲得 σ M L 2 = 1 N n = 1 N ( x n μ M L ) 2 \sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}

1.12

這題其實第一小問挺迷的,主要問題在於爲何做者要使用不一樣的下標來表示是否獨立,或者說,若是做者你想表達這個意思,那你就應該明說啊我透。這樣子一來就比較簡單明瞭了,若 n = m n=m ,則 E [ x n 2 ] \mathbb{E}[x_n^2] 根據式(1.50)很容易獲得 E [ x n 2 ] = μ 2 + σ 2 \mathbb{E}[x_n^2]=\mu^2+\sigma^2 ,下標爲 m m 時相同。若 n m n\ne m ,那麼按照做者的意思,就是說這倆變量相互獨立,因此 E [ x n x m ] = E [ x n ] E [ x m ] = μ 2 \mathbb{E}[x_nx_m]=\mathbb{E}[x_n]\mathbb{E}[x_m]=\mu^2

其實做者是想用第一小問做爲引子來幫助咱們證實式(1.57)和式(1.58),那麼實際上我是以爲不必這麼麻煩,咱們直接證實這兩個式子便可,無需繞他給的這條彎路。

對於第一個式子,求取最大似然分佈的均值的指望,咱們這裏假設總共取了 K K 次數據,每一次都取 N N 個數據來進行極大似然估計, x k n x_{kn} 表示第 k k 次取的第 n n 個數據,那麼 E [ μ M L ] = 1 K k = 1 K [ 1 N n = 1 N x k n ] = 1 K N k = 1 K n = 1 N x k n \mathbb{E}[\mu_{\mathrm{ML}}]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}]=\frac{1}{KN}\sum_{k=1}^{K}\sum_{n=1}^Nx_{kn} ,到這裏,咱們先停一下,假設咱們每次取的數據有限,也就是 N N 有限,可是咱們一直取一直取,也就是說 K K 無限,那麼這裏就能夠看作我對整個分佈上全部的 x x 都取到了,從而推得 x k n x_{kn} 的均值就是正態分佈 N ( x μ , σ 2 ) \mathcal{N}\left(x | \mu, \sigma^{2}\right) 的均值 μ \mu ,因此 E [ μ M L ] = μ \mathbb{E}[\mu_{\mathrm{ML}}]=\mu ,這就證實了式(1.57)。

對於式(1.58),首先依舊採起咱們以前的取數據規定,同時將方差的計算公式展開, μ k M L \mu_{k\mathrm{ML}} 爲第 k k 次取得的數據的均值,則 E [ σ M L 2 ] = 1 K k = 1 K [ 1 N n = 1 N ( x k n μ k M L ) 2 ] = 1 K k = 1 K [ 1 N n = 1 N ( x k n 2 2 x k n μ k M L + μ k M L 2 ) ] \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}-\mu_{k\mathrm{ML}})^2]=\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N(x_{kn}^2-2x_{kn}\mu_{k\mathrm{ML}}+ \mu_{k\mathrm{ML}}^2)] ,這就能夠拆分爲三項,其中第一項與 x k n 2 x_{kn}^2 相關,沿用上面的思路,至關於取遍了全部的 x k n x_{kn} ,因此 1 K k = 1 K [ 1 N n = 1 N x k n 2 ] = E [ x 2 ] = μ 2 + σ 2 \frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^Nx_{kn}^2]=\mathbb{E}[x^2]=\mu^2+\sigma^2 ,後面兩項能夠寫成 1 K k = 1 K [ 2 μ k M L 1 N n = 1 N x k n ] + 1 K k = 1 K [ 1 N n = 1 N ( μ k M L 2 ) ] \frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}\frac{1}{N}\sum_{n=1}^Nx_{kn}]+\frac{1}{K}\sum_{k=1}^K[\frac{1}{N}\sum_{n=1}^N( \mu_{k\mathrm{ML}}^2)] ,也就是 1 K k = 1 K [ 2 μ k M L 2 ] + 1 K k = 1 K [ μ k M L 2 ] = 1 K k = 1 K [ μ k M L 2 ] \frac{1}{K}\sum_{k=1}^K[-2\mu_{k\mathrm{ML}}^2]+\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2]=-\frac{1}{K}\sum_{k=1}^K[\mu_{k\mathrm{ML}}^2] ,這就比較明白了,後面兩項就是 E [ μ M L 2 ] -\mathbb{E}[\mu_{\mathrm{ML}}^2] ,所以 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2] ,因此咱們就要求這個 E [ μ M L 2 ] \mathbb{E}[\mu_{\mathrm{ML}}^2] ,這個表達式的含義就是每一次取得的數據的均值的平方的平均值(指望),那麼就有 E [ μ M L 2 ] = σ μ M L 2 + ( E [ μ M L ] ) 2 \mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+(\mathbb{E}[\mu_{\mathrm{ML}}])^2 ,根據公式(1.57),咱們進一步獲得 E [ μ M L 2 ] = σ μ M L 2 + μ 2 \mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma_{\mu_{\mathrm{ML}}}^2+\mu^2 ,因此 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] = σ 2 σ μ M L 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\sigma_{\mu_{\mathrm{ML}}}^2 ,因此任務又進一步變爲求這個 σ μ M L 2 = var [ μ M L ] \sigma_{\mu_{\mathrm{ML}}}^2=\operatorname{var}[\mu_{\mathrm{ML}}] ,而 var [ μ M L ] = var [ 1 N n = 1 N x n ] = 1 N 2 n = 1 N var [ x n ] = 1 N 2 n = 1 N σ 2 = σ 2 N \operatorname{var}[\mu_{\mathrm{ML}}]=\operatorname{var}[\frac{1}{N}\sum_{n=1}^N x_n]=\frac{1}{N^2}\sum_{n=1}^N \operatorname{var}[x_n]=\frac{1}{N^2}\sum_{n=1}^N \sigma^2=\frac{\sigma^2}{N}

因此就有 E [ σ M L 2 ] = μ 2 + σ 2 E [ μ M L 2 ] = σ 2 σ 2 N = N 1 N σ 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mathbb{E}[\mu_{\mathrm{ML}}^2]=\sigma^2-\frac{\sigma^2}{N}=\frac{N-1}{N}\sigma^2

PS:我用MATLAB作了一下實驗,與理論徹底相符,式(1.57)和式(1.58)實際上也能夠從直觀上進行理解,這裏就不詳細說了。

1.13

根據題目(1.12)的推導,這題就很簡單了,將 E [ μ M L 2 ] \mathbb{E}[\mu_{\mathrm{ML}}^2] 代換爲 E [ μ 2 ] = μ 2 \mathbb{E}[\mu^2]=\mu^2 便可,那很顯然 E [ σ M L 2 ] = μ 2 + σ 2 μ 2 = σ 2 \mathbb{E}[\sigma_{\mathrm{ML}}^2]=\mu^2+\sigma^2-\mu^2=\sigma^2 。此時,方差的指望也就是無偏的了。

1.14

若是能夠寫成題目要求的形式(設原矩陣爲 W \mathrm{W} ,要寫成 W = S + A \mathrm{W}=\mathrm{S}+\mathrm{A} ),那首先能夠很容易推斷出 A \mathrm{A} 的對角線上的元素都是 0 0 ,因此 S \mathrm{S} 對角線上的元素就是 W \mathrm{W} 對角線上的元素。接着就是要證實 S \mathrm{S} A \mathrm{A} 的其他元素也是可解出來的,由於 w i j = w i j S + w i j A w_{ij}=w_{ij}^{\mathrm{S}}+w_{ij}^{\mathrm{A}} ,同時 w j i = w j i S + w j i A = w i j S w i j A w_{ji}=w_{ji}^{\mathrm{S}}+w_{ji}^{\mathrm{A}}=w_{ij}^{\mathrm{S}}-w_{ij}^{\mathrm{A}} ,這就能夠獲得構成一個二元一次方程組,因爲參數對應的矩陣的秩爲 2 2 ,所以方程組必然有解,因此能夠寫成題目要求的形式。

i = 1 D j = 1 D x i w i j x j = x T W x = x T ( S + A ) x = x T S x + x T A x \sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T (S+A) x}=\mathrm{x^T S x +x^T A x} ,如今重點關注一下 x T A x \mathrm{x^T A x} 這一項,由於 x T A x = i = 1 D j = 1 D x i w i j A x j \mathrm{x^T A x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{A}}x_j ,那麼 A \mathrm{A} 的對角線元素皆爲 0 0 ,同時對稱元素互爲相反數,(注意, A \mathrm{A} 和另外兩個矩陣都是方陣,這是前提條件),至關於 x i w i j A x j + x j w j i A x i = 0 x_i w_{ij}^{\mathrm{A}}x_j+x_j w_{ji}^{\mathrm{A}}x_i=0 ,因此 x T A x = 0 \mathrm{x^T A x}=0 ,因此 i = 1 D j = 1 D x i w i j x j = x T W x = x T S x + x T A x = x T S x = i = 1 D j = 1 D x i w i j S x j \sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}x_j=\mathrm{x^T W x}=\mathrm{x^T S x +x^T A x}=\mathrm{x^T S x}=\sum_{i=1}^{D}\sum_{j=1}^{D}x_i w_{ij}^{\mathrm{S}}x_j

最後一小問就至關於問咱們矩陣 S \mathrm{S} 的對角線以及上(或下)三角部分一共有幾個元素,使用數列求和的方式,咱們獲得 1 + 2 + 3 + + D = D ( D + 1 ) / 2 1+2+3+\dots+D=D(D+1)/2 ,所以獨立的元素數量就是這麼多。

1.15

根據題目1.14可知,由全部 w i 1 i 2 i M w_{i_{1}i_{2}\dots i _{M}} 構成的高維張量也是一個高維對稱張量,其中的獨立元素使用 w ~ i 1 i 2 i M \tilde{w}_{i_{1}i_{2}\dots i _{M}} 表示,此時要證實的式子就比較好理解了,因爲張量的對稱性質,其他元素都是非獨立的,所以都可不作考慮,在根據 i 1 i_{1} i M i_{M} 肯定了張量的維度順序後,假設 i 1 = 1 i_1 = 1 ,那麼因爲剩下的維度中非獨立元素所處的維度小於等於第一維的維度,所以 i 2 i_2 的上限是 i 1 i_1 ,同理,剩下的和式也是能夠推出來的。由此咱們能夠獲得形式爲 i 1 = 1 D i 2 = 1 i 1 i M = 1 i M 1 w ~ i 1 i 2 i M x i 1 x i 2 x i M \sum_{i_{1}=1}^{D} \sum_{i_{2}=1}^{i_{1}} \cdots \sum_{i_{M}=1}^{i_{M-1}} \widetilde{w}_{i_{1} i_{2} \cdots i_{M}} x_{i_{1}} x_{i_{2}} \cdots x_{i_{M}}

Tips:實際上我仍是沒有想明白對稱的高維張量是長啥樣的。

接着要證實 n ( D , M ) = i = 1 D n ( i , M 1 ) n(D, M)=\sum_{i=1}^{D} n(i, M-1) ,這個也很簡單,就將上面第一問的結果拿來用,最外圍的求和就是在 i 1 i_1 1 1 取到 D D 的過程當中後方全部項的求和,而 i 2 i_2 i M i_M 一共有 M 1 M-1 項,因此得證。這個遞推式仍是比較直觀的。

第三小問概括法也很直接, D = 1 D=1 的狀況下, i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( M 1 ) ! ( M 1 ) ! = 1 = ( D + M 1 ) ! ( D 1 ) ! M ! = ( 1 + M 1 ) ! ( 1 1 ) ! M ! = M ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(M-1)!}{(M-1)!}=1=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(1+M-1) !}{(1-1) ! M !}=\frac{M!}{M!} ,此時等式成立,假設取數字 D D 時,等式成立,則 i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} ,則取數字 D + 1 D+1 時, i = 1 D + 1 ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = i = 1 D [ ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! ] + ( D + M 1 ) ! D ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! + ( D + M 1 ) ! D ! ( M 1 ) ! = ( D + M ) ( D + M 1 ) ! D ! M ! \sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\sum_{i=1}^{D} [\frac{(i+M-2) !}{(i-1) !(M-1) !}]+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !}+\frac{(D+M-1) !}{D ! (M-1) !}=\frac{(D+M)(D+M-1)!}{D!M!} ,因此 i = 1 D + 1 ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M ) ! D ! M ! = ( D + 1 + M 1 ) ! ( D + 1 1 ) ! M ! \sum_{i=1}^{D+1} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M)!}{D!M!}=\frac{(D+1+M-1)!}{(D+1-1)!M!} ,說明該式在 D + 1 D+1 時仍舊成立,從而概括得證。

對於任意 D 1 D \ge 1 ,取 M = 2 M=2 ,則有 n ( D , M ) = ( D + M 1 ) ! ( D 1 ) ! M ! = ( D + 1 ) ! ( D 1 ) ! 2 ! = D ( D + 1 ) 2 n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !}=\frac{(D+1) !}{(D-1) !2 !}=\frac{D(D+1)}{2} ,正如咱們在題目1.14中獲得結果同樣。如今假設 M 1 M-1 時,該式成立,即 n ( D , M 1 ) = ( D + M 2 ) ! ( D 1 ) ! ( M 1 ) ! n(D, M-1)=\frac{(D+M-2) !}{(D-1) ! (M-1) !} ,而 n ( D , M ) = i = 1 D n ( i , M 1 ) = i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! n(D, M)=\sum_{i=1}^{D} n(i, M-1)=\sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) ! (M-1) !} ,又由於 i = 1 D ( i + M 2 ) ! ( i 1 ) ! ( M 1 ) ! = ( D + M 1 ) ! ( D 1 ) ! M ! \sum_{i=1}^{D} \frac{(i+M-2) !}{(i-1) !(M-1) !}=\frac{(D+M-1) !}{(D-1) ! M !} ,因此 n ( D , M ) = ( D + M 1 ) ! ( D 1 ) ! M ! n(D, M)=\frac{(D+M-1) !}{(D-1) ! M !} ,因此在 M M 時,該式依舊成立,從而概括得證。

1.16

第一小問很直觀,根據式(1.74)可知, n ( D , M ) n(D,M) 僅表徵了第 M M 階參數的獨立元素個數,如今的 N ( D , M ) N(D,M) 至關於求取全部階( 0 0 階到 M M 階)的獨立參數數量,所以 N ( D , M ) = m = 0 M n ( D , m ) N(D, M)=\sum_{m=0}^{M} n(D, m)

第二小問,當 M = 0 M=0 時, N ( D , M ) = ( D + M ) ! D ! M ! = 1 N(D, M)=\frac{(D+M) !}{D ! M !}=1 ,這與實際相符,當僅含有 0 0 階時,因爲 x x 無關,因此實際上就一個常數項,所以參數的數量就是 1 1 。如今假設 M M 時成立,即 N ( D , M ) = ( D + M ) ! D ! M ! N(D, M)=\frac{(D+M) !}{D ! M !} ,則取 M + 1 M+1 時, N ( D , M + 1 ) = ( D + M ) ! D ! M ! + n ( D , M + 1 ) = ( D + M ) ! D ! M ! + ( D + M ) ! ( D 1 ) ! ( M + 1 ) ! = ( M + 1 ) ( D + M ) ! + D ( D + M ) ! D ! ( M + 1 ) ! = ( D + M + 1 ) ! D ! ( M + 1 ) ! N(D, M+1)=\frac{(D+M) !}{D ! M !}+n(D,M+1)=\frac{(D+M) !}{D ! M !}+\frac{(D+M) !}{(D-1) ! (M+1) !}=\frac{(M+1)(D+M)!+D(D+M)!}{D!(M+1)!}=\frac{(D+M+1)!}{D!(M+1)!} ,這裏使用了式(1.137)的結論,從而概括得證。

第三小問使用了斯特林公式 n ! n n e n n ! \simeq n^{n} e^{-n} ,若 D M D \gg M ,則 N ( D , M ) = ( D + M ) ! D ! M ! ( D + M ) ! D ! ( D + M ) D + M e ( D + M ) D D e D ( D + M ) D + M D D D D + M D D = D M N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{D!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{D^De^{-D}} \simeq \frac{(D+M)^{D+M}}{D^D} \simeq \frac{D^{D+M}}{D^D}=D^M ,同理,若 M D M \gg D ,則有 N ( D , M ) = ( D + M ) ! D ! M ! ( D + M ) ! M ! ( D + M ) D + M e ( D + M ) M M e M ( D + M ) D + M M M M D + M M M = M D N(D, M)=\frac{(D+M) !}{D ! M !} \simeq \frac{(D+M)!}{M!} \simeq \frac{(D+M)^{D+M}e^{-(D+M)}}{M^Me^{-M}} \simeq \frac{(D+M)^{D+M}}{M^M} \simeq \frac{M^{D+M}}{M^M}=M^D ,從而得證。

N ( 10 , 3 ) = ( 10 + 3 ) ! 10 ! 3 ! = 286 N(10, 3)=\frac{(10+3) !}{10 ! 3 !}=286 N ( 100 , 3 ) = ( 100 + 3 ) ! 100 ! 3 ! = 176851 N(100, 3)=\frac{(100+3) !}{100 ! 3 !}=176851

1.17

已知 Γ ( x ) 0 u x 1 e u d u \Gamma(x) \equiv \int_{0}^{\infty} u^{x-1} e^{-u} \mathrm{d} u ,根據分部積分法,能夠獲得 Γ ( x ) = 0 u x 1 d e u = u x 1 e u 0 + 0 e u d u x 1 = 0 e u d u x 1 \Gamma(x)=\int_{0}^{\infty}-u^{x-1}\mathrm{d}e^{-u}=-u^{x-1}e^{-u}|_0^{\infty}+\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1}=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x-1} ,前半部分的積分爲 0 0 不作贅述,簡單說明一下就是 x x 是有限項,而 u u 取無限大項時,無限大的有限次方除以 e e 的無限大次方時趨近於 0 0 ,你也能夠用MATLAB測試一下。而 Γ ( x + 1 ) = 0 e u d u x = 0 x e u d u x 1 = x Γ ( x ) \Gamma(x+1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=\int_{0}^{\infty}xe^{-u}\mathrm{d}u^{x-1}=x\Gamma(x) ,得證。

Γ ( 1 ) = 0 e u d u = e u 0 = 1 \Gamma(1)=\int_{0}^{\infty}e^{-u}\mathrm{d}u=-e^{-u}|_0^{\infty}=1 ,得證。

x x 爲整數,那麼 Γ ( x + 1 ) = 0 e u d u x \Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x} ,式子中,微分項 u x u^{x} 的次冪就能夠一直取下來,獲得 Γ ( x + 1 ) = 0 e u d u x = x ! 0 e u d u = x ! \Gamma(x+1) = \int_{0}^{\infty}e^{-u}\mathrm{d}u^{x}=x!\int_{0}^{\infty}e^{-u}\mathrm{d}u=x!

1.18

有一個疑問,式(1.142)中,爲什麼就稱那一項爲 S D S_D 的呢?憑什麼那一項所表明的的含義就是 D D 維空間中單位球體的表面積呢?我本身想了一下,可是也只是一個頭緒,咱們看一下題目1.7中的計算過程,其中有一步是算到了 I 2 = o 2 π 0 exp ( 1 2 σ 2 r 2 ) r d r d θ I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-\frac{1}{2\sigma^2}r^2)r\mathrm{d}r\mathrm{d}\theta ,爲了和本題結合,咱們取 σ 2 = 1 / 2 \sigma^2=1/2 ,則有 I 2 = o 2 π 0 exp ( r 2 ) r d r d θ I^{2}=\int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta ,將這個公式對照題目1.18裏面的式(1.142),就能夠看到, S D S_D 就是咱們算出來的這個雙重積分項 o 2 π 0 exp ( r 2 ) r d r d θ \int_o^{2 \pi}\int_0^{\infty}\exp(-r^2)r\mathrm{d}r\mathrm{d}\theta 除以這個積分項內層的積分,簡單來講,經過這麼一個除法,本來對於整個平面的積分( r r 0 0 取到 \infty ),變成了單位長度,同時又消除了 exp ( r 2 ) \exp (-r^2) 這一項的積分影響,至關於算了一個在極小角度下的單位半徑的扇形的面積,那麼再對這個扇形進行角度上的積分,轉一圈就獲得了單位圓的面積。因此式(1.142)就是這個過程在更高維空間的一個推廣。這是個人理解。

首先,根據式(1.126),能夠推知, i = 1 D e x i 2 d x i = π D / 2 \prod_{i=1}^{D} \int_{-\infty}^{\infty} e^{-x_{i}^{2}} \mathrm{d} x_{i}=\pi^{D/2}

相關文章
相關標籤/搜索