本文首發自 產品經理的人工智能學習庫(easyai.tech)算法
原文地址:《一文看懂邏輯迴歸算法(基本概念+優缺點+美團應用案例)》機器學習
本文將通俗易懂的介紹邏輯迴歸的基本概念、優缺點和實際應用的案例。同時會跟線性迴歸作一些比較,讓你們可以有效的區分 2 種不一樣的算法。性能
線性迴歸的位置如上圖所示,它屬於機器學習 - 監督學習 - 分類 - 邏輯迴歸。學習
擴展閱讀:測試
《一文看懂機器學習!(3種學習方法+7個實操步驟+15種常見算法)》優化
《一文看懂監督學習(基本概念+4步流程+9個典型算法)》人工智能
邏輯迴歸(Logistic Regression)主要解決二分類問題,用來表示某件事情發生的可能性。3d
好比:cdn
優勢:blog
缺點:
線性迴歸和邏輯迴歸是 2 種經典的算法。常常被拿來作比較,下面整理了一些二者的區別:
注:
自變量:主動操做的變量,能夠看作「因變量」的緣由
因變量:由於「自變量」的變化而變化,能夠看作「自變量」的結果。也是咱們想要預測的結果。
美團會把邏輯迴歸應用到業務中解決一些實際問題。這裏以預測用戶對品類的購買偏好爲例,該問題能夠轉換爲預測用戶在將來某個時間段是否會購買某個品類,若是把會購買標記爲1,不會購買標記爲0,就轉換爲一個二分類問題。咱們用到的特徵包括用戶在美團的瀏覽,購買等歷史信息,見下表:
其中提取的特徵的時間跨度爲30天,標籤爲2天。生成的訓練數據大約在7000萬量級(美團一個月有過行爲的用戶),咱們人工把類似的小品類聚合起來,最後有18個較爲典型的品類集合。若是用戶在給定的時間內購買某一品類集合,就做爲正例。有了訓練數據後,使用Spark版的LR算法對每一個品類訓練一個二分類模型,迭代次數設爲100次的話模型訓練須要40分鐘左右,平均每一個模型2分鐘,測試集上的AUC也大多在0.8以上。訓練好的模型會保存下來,用於預測在各個品類上的購買機率。預測的結果則會用於推薦等場景。
因爲不一樣品類之間正負例分佈不一樣,有些品類正負例分佈很不均衡,咱們還嘗試了不一樣的採樣方法,最終目標是提升下單率等線上指標。通過一些參數調優,品類偏好特徵爲推薦和排序帶來了超過1%的下單率提高。
此外,因爲LR模型的簡單高效,易於實現,能夠爲後續模型優化提供一個不錯的baseline,咱們在排序等服務中也使用了LR模型。