貝葉斯方法與Ridge迴歸的聯繫

貝葉斯方法與Ridge迴歸有什麼聯繫?廢話少說,咱們直接來看。函數

爲了方便說明問題,考慮一維的自變量,將一系列自變量排成向量的形式:\(\mathbf{x}=(x_1,\cdots,x_N)^T\),對應的目標函數爲\(\mathbf{t}=(t_1,\cdots,t_N)^T\)post

咱們假設樣本中每一個\(t\)都獨立,且服從正態分佈,分佈的均值爲\(y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j\)(也能夠不指定形式,只要是關於\(x\)\(\mathbf{w}\)的函數便可),方差的倒數爲\(\beta\),則似然函數爲優化

\[p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N} \mathcal{N}(t_n|y(x,\mathbf{w}),\beta^{-1}) \]

將似然函數取對數,再把正態分佈的具體形式寫出來,有spa

\[\ln{p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)}=-\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{N}{2}\ln{\beta}-\dfrac{N}{2}\ln(2\pi) \]

最大化似然函數,等價於最小化它的負對數,也等價於最小化\(\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2\)。咱們發現,其實這就是用OLS解線性迴歸問題。換句話說,用OLS解線性迴歸,至關於在正態分佈假設下,求解最大似然問題io

那麼在貝葉斯方法下,又會有什麼事情發生呢?因爲貝葉斯方法須要一個參數的先驗分佈,在這裏就假設參數\(\mathbf{w}\)的先驗分佈是一個由超參數\(\alpha\)控制的簡單的正態分佈,注意這裏是多維的正態分佈:class

\[\begin{aligned} p(\mathbf{w}|\alpha)&=\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})\\ &=(\dfrac{\alpha}{2\pi})^{\dfrac{M+1}{2}}\exp(-\dfrac{\alpha}{2}\mathbf{w}^T \mathbf{w}) \end{aligned} \]

其中\(M+1\)\(\mathbf{w}\)的元素的總數。變量

根據貝葉斯定理,有lambda

\[p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) \]

咱們要最大化的就是\(\mathbf{w}\)的後驗機率,這樣的方法就是MAP(maximum posterior)。方法

對上式右邊取負對數,並捨去與\(\mathbf{w}\)無關的項後,變爲:im

\[\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{\alpha}{2}\mathbf{w}^T\mathbf{w} \]

咱們發現,在本來的數據服從正態分佈的假設中,再加入關於參數的零均值、同方差且無相關的多維正態分佈的假設後,貝葉斯方法要最優化的東西,就是Ridge迴歸中要最優化的東西,取正則化參數\(\lambda=\dfrac{\alpha}{\beta}\),兩者的結果是一致的。

相關文章
相關標籤/搜索