一文看懂邏輯迴歸算法(基本概念+優缺點+美團應用案例)

本文首發自 產品經理的人工智能學習庫(easyai.tech算法

原文地址:《一文看懂邏輯迴歸算法(基本概念+優缺點+美團應用案例)機器學習

一文看懂邏輯迴歸

本文將通俗易懂的介紹邏輯迴歸的基本概念、優缺點和實際應用的案例。同時會跟線性迴歸作一些比較,讓你們可以有效的區分 2 種不一樣的算法。性能

什麼是邏輯迴歸?

邏輯迴歸在機器學習中的位置

線性迴歸的位置如上圖所示,它屬於機器學習 - 監督學習 - 分類 - 邏輯迴歸。學習

擴展閱讀:測試

一文看懂機器學習!(3種學習方法+7個實操步驟+15種常見算法)優化

一文看懂監督學習(基本概念+4步流程+9個典型算法)人工智能

邏輯迴歸(Logistic Regression)主要解決二分類問題,用來表示某件事情發生的可能性3d

什麼是邏輯迴歸

好比:cdn

  • 一封郵件是垃圾郵件的肯能性(是、不是)
  • 你購買一件商品的可能性(買、不買)
  • 廣告被點擊的可能性(點、不點)

邏輯迴歸的優缺點

優勢:blog

  • 實現簡單,普遍的應用於工業問題上;
  • 分類時計算量很是小,速度很快,存儲資源低;
  • 便利的觀測樣本機率分數;
  • 對邏輯迴歸而言,多重共線性並非問題,它能夠結合L2正則化來解決該問題;
  • 計算代價不高,易於理解和實現;

缺點:

  • 當特徵空間很大時,邏輯迴歸的性能不是很好;
  • 容易欠擬合,通常準確度不過高
  • 不能很好地處理大量多類特徵或變量;
  • 只能處理兩分類問題(在此基礎上衍生出來的softmax能夠用於多分類),且必須線性可分
  • 對於非線性特徵,須要進行轉換;

邏輯迴歸 VS 線性迴歸

線性迴歸和邏輯迴歸是 2 種經典的算法。常常被拿來作比較,下面整理了一些二者的區別:

線性迴歸和邏輯迴歸的區別

  1. 線性迴歸只能用於迴歸問題,邏輯迴歸雖然名字叫回歸,可是更多用於分類問題(關於迴歸和分類的區別能夠看看這篇文章《一文看懂監督學習(基本概念+4步流程+9個典型算法)》)
  2. 線性迴歸要求因變量是連續性數值變量,而邏輯迴歸要求因變量是離散的變量
  3. 線性迴歸要求自變量和因變量呈線性關係,而邏輯迴歸不要求自變量和因變量呈線性關係
  4. 線性迴歸能夠直觀的表達自變量和因變量之間的關係,邏輯迴歸則沒法表達變量之間的關係

注:

自變量:主動操做的變量,能夠看作「因變量」的緣由

因變量:由於「自變量」的變化而變化,能夠看作「自變量」的結果。也是咱們想要預測的結果。

自變量、因變量的解釋

美團的應用案例

美團會把邏輯迴歸應用到業務中解決一些實際問題。這裏以預測用戶對品類的購買偏好爲例,該問題能夠轉換爲預測用戶在將來某個時間段是否會購買某個品類,若是把會購買標記爲1,不會購買標記爲0,就轉換爲一個二分類問題。咱們用到的特徵包括用戶在美團的瀏覽,購買等歷史信息,見下表:

美團應用邏輯迴歸的案例

其中提取的特徵的時間跨度爲30天,標籤爲2天。生成的訓練數據大約在7000萬量級(美團一個月有過行爲的用戶),咱們人工把類似的小品類聚合起來,最後有18個較爲典型的品類集合。若是用戶在給定的時間內購買某一品類集合,就做爲正例。有了訓練數據後,使用Spark版的LR算法對每一個品類訓練一個二分類模型,迭代次數設爲100次的話模型訓練須要40分鐘左右,平均每一個模型2分鐘,測試集上的AUC也大多在0.8以上。訓練好的模型會保存下來,用於預測在各個品類上的購買機率。預測的結果則會用於推薦等場景。

因爲不一樣品類之間正負例分佈不一樣,有些品類正負例分佈很不均衡,咱們還嘗試了不一樣的採樣方法,最終目標是提升下單率等線上指標。通過一些參數調優,品類偏好特徵爲推薦和排序帶來了超過1%的下單率提高。

此外,因爲LR模型的簡單高效,易於實現,能夠爲後續模型優化提供一個不錯的baseline,咱們在排序等服務中也使用了LR模型。

相關文章
相關標籤/搜索