數據科學速成班:解釋邏輯迴歸

做者|Mandy Gu
編譯|Flin
來源|towardsdatascience機器學習

Logistic迴歸,經過估計事件發生的對數機率來對事件發生的機率進行建模。若是咱們假設對數比值和 j 個自變量之間存在線性關係,那麼咱們能夠將事件發生的機率p建模爲:學習

你可能注意到未指定對數底。對數的底數其實並不重要,回想一下,若是咱們把兩邊都乘以logk b,咱們能夠把底數b改爲任何新的底數k。.net

這使咱們能夠靈活地假設左側的底數。固然,底數會影響對結果和係數值的解釋。3d

分離機率

若是咱們有估計係數,就很容易分離出p。注意,p/(1-p)表示事件發生的機率。blog

咱們將用另外一個例子來解釋說明。房地產經紀人吉姆(Jim)訓練了一個邏輯迴歸模型來預測某人出價買房的可能性。他經過使用兩個解釋變量來保持他的模型的簡潔性:事件

  • x1:潛在客戶拜訪房子的次數ci

  • 這棟房子的要價是幾千美圓資源

在使用程序肯定最優係數後,Jim爲他的模型推導出這些係數:文檔

Jim的模型告訴咱們:get

  • 潛在買家每多一次拜訪,平均機率天然對數增長2

  • 房屋每增長1000美圓,平均機率的天然對數降低0.002

聽起來很拗口,並且很難聽懂。咱們能夠用一個更簡單的技巧來解釋。

咱們能夠計算e的2次方和-0.002次方的值來簡化解釋。

  • 潛在買家平均每增長一次造訪的時間,他提出報價的機率就會增長約7.39倍

  • 房屋每增長1000美圓,平均出價的機率會受到0.998倍的影響

若是吉姆的客戶,Sue,參觀了一次房子,房子價值100萬美圓,那麼咱們能夠用上面推導出的公式來估計她購買房子的機率。

這代表Sue有大約4%的機率出價買下這所房子。

做爲一個分類器

儘管logistic迴歸是一種迴歸模型,但它常常被用於分類。機率老是在0和1之間。咱們能夠設置一個任意的閾值來預測觀察到的類別。

咱們還能夠將logistic迴歸擴展爲兩個以上的分類器,使其成爲一個多類分類器。爲此,咱們能夠採起「 一對一」的方法,即訓練儘量多的邏輯迴歸模型(每一個模型預測一個類別的對數機率),並採用產生最高推斷機率的類別。

原文連接:https://towardsdatascience.com/data-science-crash-course-interpreting-logistic-regression-97fc0f40d06b

歡迎關注磐創AI博客站:
http://panchuang.net/

sklearn機器學習中文官方文檔:
http://sklearn123.com/

歡迎關注磐創博客資源彙總站:
http://docs.panchuang.net/

相關文章
相關標籤/搜索