貝葉斯方法與Ridge迴歸的聯繫

時間 2020-12-03

標籤函數 post 優化 spa class 變量 lambda 方法欄目 HTTP/TCP 简体版

原文原文鏈接

貝葉斯方法與Ridge迴歸有什麼聯繫？廢話少說，咱們直接來看。函數

爲了方便說明問題，考慮一維的自變量，將一系列自變量排成向量的形式：\(\mathbf{x}=(x_1,\cdots,x_N)^T\)，對應的目標函數爲\(\mathbf{t}=(t_1,\cdots,t_N)^T\)。post

咱們假設樣本中每一個\(t\)都獨立，且服從正態分佈，分佈的均值爲\(y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j\)（也能夠不指定形式，只要是關於\(x\)和\(\mathbf{w}\)的函數便可），方差的倒數爲\(\beta\)，則似然函數爲優化

\[p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)=\prod_{n=1}^{N} \mathcal{N}(t_n|y(x,\mathbf{w}),\beta^{-1}) \]

將似然函數取對數，再把正態分佈的具體形式寫出來，有spa

\[\ln{p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)}=-\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{N}{2}\ln{\beta}-\dfrac{N}{2}\ln(2\pi) \]

最大化似然函數，等價於最小化它的負對數，也等價於最小化\(\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2\)。咱們發現，其實這就是用OLS解線性迴歸問題。換句話說，用OLS解線性迴歸，至關於在正態分佈假設下，求解最大似然問題。io

那麼在貝葉斯方法下，又會有什麼事情發生呢？因爲貝葉斯方法須要一個參數的先驗分佈，在這裏就假設參數\(\mathbf{w}\)的先驗分佈是一個由超參數\(\alpha\)控制的簡單的正態分佈，注意這裏是多維的正態分佈：class

\[\begin{aligned} p(\mathbf{w}|\alpha)&=\mathcal{N}(\mathbf{w}| \mathbf{0},\alpha^{-1}\mathbf{I})\\ &=(\dfrac{\alpha}{2\pi})^{\dfrac{M+1}{2}}\exp(-\dfrac{\alpha}{2}\mathbf{w}^T \mathbf{w}) \end{aligned} \]

其中\(M+1\)是\(\mathbf{w}\)的元素的總數。變量

根據貝葉斯定理，有lambda

\[p(\mathbf{w}|\mathbf{x},\mathbf{t},\alpha,\beta)\propto p(\mathbf{t}|\mathbf{x},\mathbf{w},\beta)p(\mathbf{w}|\alpha) \]

咱們要最大化的就是\(\mathbf{w}\)的後驗機率，這樣的方法就是MAP（maximum posterior）。方法

對上式右邊取負對數，並捨去與\(\mathbf{w}\)無關的項後，變爲：im

\[\dfrac{\beta}{2}\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2+\dfrac{\alpha}{2}\mathbf{w}^T\mathbf{w} \]

咱們發現，在本來的數據服從正態分佈的假設中，再加入關於參數的零均值、同方差且無相關的多維正態分佈的假設後，貝葉斯方法要最優化的東西，就是Ridge迴歸中要最優化的東西，取正則化參數\(\lambda=\dfrac{\alpha}{\beta}\)，兩者的結果是一致的。