貝葉斯方法與Ridge迴歸有什麼聯繫?廢話少說,咱們直接來看。函數
爲了方便說明問題,考慮一維的自變量,將一系列自變量排成向量的形式:\(\mathbf{x}=(x_1,\cdots,x_N)^T\),對應的目標函數爲\(\mathbf{t}=(t_1,\cdots,t_N)^T\)。post
咱們假設樣本中每一個\(t\)都獨立,且服從正態分佈,分佈的均值爲\(y(x,\mathbf{w})=\sum_{j=0}^{M} w_j x^j\)(也能夠不指定形式,只要是關於\(x\)和\(\mathbf{w}\)的函數便可),方差的倒數爲\(\beta\),則似然函數爲優化
將似然函數取對數,再把正態分佈的具體形式寫出來,有spa
最大化似然函數,等價於最小化它的負對數,也等價於最小化\(\sum_{n=1}^{N}[y(x_n,\mathbf{w})-t_n]^2\)。咱們發現,其實這就是用OLS解線性迴歸問題。換句話說,用OLS解線性迴歸,至關於在正態分佈假設下,求解最大似然問題。io
那麼在貝葉斯方法下,又會有什麼事情發生呢?因爲貝葉斯方法須要一個參數的先驗分佈,在這裏就假設參數\(\mathbf{w}\)的先驗分佈是一個由超參數\(\alpha\)控制的簡單的正態分佈,注意這裏是多維的正態分佈:class
其中\(M+1\)是\(\mathbf{w}\)的元素的總數。變量
根據貝葉斯定理,有lambda
咱們要最大化的就是\(\mathbf{w}\)的後驗機率,這樣的方法就是MAP(maximum posterior)。方法
對上式右邊取負對數,並捨去與\(\mathbf{w}\)無關的項後,變爲:im
咱們發現,在本來的數據服從正態分佈的假設中,再加入關於參數的零均值、同方差且無相關的多維正態分佈的假設後,貝葉斯方法要最優化的東西,就是Ridge迴歸中要最優化的東西,取正則化參數\(\lambda=\dfrac{\alpha}{\beta}\),兩者的結果是一致的。