LR爲何用極大似然估計,損失函數爲何是log損失函數(交叉熵)

 

去今日頭條面試沒有答上來,回來本身想了想,查了查,把解釋寫出來,不必定合理。面試

首先,邏輯迴歸是一個機率模型,無論x取什麼值,最後模型的輸出也是固定在(0,1)之間,這樣就能夠表明x取某個值時y是1的機率機器學習

這裏邊的參數就是θ,咱們估計參數的時候經常使用的就是極大似然估計,爲何呢?能夠這麼考慮函數

好比有n個x,xi對應yi=1的機率是pi,yi=0的機率是1-pi,當參數θ取什麼值最合適呢,能夠考慮學習

n個x中對應k個1,和(n-k)個0(這裏k個取1的樣本是肯定的,這裏就假設前k個是1,後邊的是0.平時訓練模型拿到的樣本也是肯定的,若是不肯定還要排列組合)spa

則(p1*p2*...*pk)*(1-pk+1)*(1-pk+2)*...*(1-pn)最大時,θ是最合適的。聯合機率最大嘛,就是整體猜的最準,就是儘量使機器學習中全部樣本預測到對應分類得機率總體最大化。blog

其實上邊的算式就是極大似然估計的算式:io

對應到LR中:function

總之就是由於LR是機率模型,對機率模型估計參數用極大似然,原理上邊說了原理

 

而後爲何用logloss做爲cost function呢im

主要的緣由就是由於似然函數的本質和損失函數本質的關係

對數似然函數:

 能夠看到對數似然函數和交叉熵函數在二分類的狀況下形式是幾乎同樣的,能夠說最小化交叉熵的本質就是對數似然函數的最大化。

對數似然函數的本質就是衡量在某個參數下,總體的估計和真實狀況同樣的機率,越大表明越相近

而損失函數的本質就是衡量預測值和真實值之間的差距,越大表明越不相近。

他們兩個是相反的一個關係,至於損失函數的懲罰程度,能夠用參數修正,咱們這裏不考慮。

因此在對數似然前邊加一個負號表明相反,這樣就把對數似然轉化成了一個損失函數,而後把y取0和1的狀況分開(寫成分段函數),就是:

 

 意義就是:當y=1時,h=1時沒有損失,h越趨近0損失越大

當y=0時,h=0沒有損失,h越趨近1損失越大。

相關文章
相關標籤/搜索