ABSTRACT算法
這篇paper中做者結合GBDT和LR,取得了很好的效果,比單個模型的效果高出3%。隨後做者研究了對總體預測系統產生影響的幾個因素,發現Feature(能挖掘出用戶和廣告的歷史信息)+Model(GBDT+LR)的貢獻程度最大,而其餘因素(數據實時性,模型學習速率,數據採樣)的影響則較小。工具
1. INTRODUCTION學習
介紹了先前的一些相關paper。包括Google,Yahoo,MS的關於CTR Model方面的paper。lua
而在Facebook,廣告系統是由級聯型的分類器(a cascade of classifiers)組成,而本篇paper討論的CTR Model則是這個cascade classifiers的最後一環節。3d
2. EXPERIMENTAL SETUPorm
做者介紹瞭如何構建training data和testing data,以及Evaluation Metrics。包括Normalized Entropy和Calibration。blog
Normalized Entropy的定義爲每次展示時預測獲得的log loss的平均值,除以對整個數據集的平均log loss值。之因此須要除以整個數據集的平均log loss值,是由於backgroud CTR越接近於0或1,則越容易預測取得較好的log loss值,而作了normalization後,NE便會對backgroud CTR不敏感了。這個Normalized Entropy值越低,則說明預測的效果越好。下面列出表達式:內存
Calibration的定義爲預估CTR除以真實CTR,即預測的點擊數除以真實觀察到的點擊數。這個值越接近1,則代表預測效果越好。ci
3. PREDICTION MODEL STRUCTUREget
做者介紹了兩種Online Learning的方法。包括Stochastic Gradient Descent(SGD)-based LR:
和Bayesian online learning scheme for probit regression(BOPR):
BOPR每輪迭代時的更新公式爲:
3.1 Decision tree feature transforms
Linear Model的表達能力不夠,須要feature transformation。第一種方法是對連續feature進行分段處理(怎樣分段,以及分段的分界點是很重要的);第二種方法是進行特徵組合,包括對離散feature作笛卡爾積,或者對連續feature使用聯合分段(joint binning),好比使用k-d tree。
而使用GBDT能做爲一種很好的feature transformation的工具,咱們能夠把GBDT中的每棵樹做爲一種類別的feature,把一個instance通過GBDT的流程(即從根節點一直往下分叉到一個特定的葉子節點)做爲一個instance的特徵組合的過程。這裏GBDT採用的是Gradient Boosting Machine + L2-TreeBoost算法。這裏是本篇paper的重點部分,放一張經典的原圖:
3.2 Data freshness
CTR預估系統是在一個動態的環境中,數據的分佈隨時在變化,因此本文探討了data freshness對預測效果的影響,代表training data的日期越靠近,效果越好。
3.3 Online linear classifier
探討了對SGD-based LR中learning rate的選擇。最好的選擇爲:
1)global效果差的緣由:每一個維度上訓練樣本的不平衡,每一個訓練樣本擁有不一樣的feature。那些擁有樣本數較少的維度的learning rate降低過快,致使沒法收斂到最優值。
2)per weight差的緣由:雖然對於各個維度有所區分,可是其對於各個維度的learning rate降低速度都太快了,訓練過早結束,沒法收斂到最優值。
SGD-based LR vs BOPR
1)SGD-based LR對比BOPR的優點:
1-1)模型參數少,內存佔用少。SGD-based LR每一個維度只有一個weight值,而BOPR每一個維度有1個均值 + 1個方差值。
1-2)計算速度快。SGD-LR只需1次內積計算,BOPR須要2次內積計算。
2)BOPR對比SGD-based LR的優點:
2-1)BOPR能夠獲得完整的預測點擊機率分佈。
4 ONLINE DATA JOINER
Online Data Joiner主要是用於在線的將label與相應的features進行join。同時做者也介紹了正負樣本的選取方式,以及選取負樣本時候的waiting time window的選擇。
5 CONTAINING MEMORY AND LATENCY
做者探討了GBDT中tree的個數,各類類型的features(包括contextual features和historical features),對預測效果的影響。結論以下:
1)NE的降低基原本自於前500棵樹。
2)最後1000棵樹對NE的下降貢獻低於0.1%。
3)Submodel 2 過擬合,數據量較少,只有其他2個模型的約四分之一。
4)Importance爲feature帶來的累積信息增益 / 平方差的減小
5)Top 10 features貢獻了將近一半的importance
6)最後的300個features的貢獻不足1%
6 COPYING WITH MASSIVE TRANING DATA
做者探討了如何進行樣本採樣的過程,包括了均勻採樣(Uniform subsampling),和負樣本降採樣(Negative down sampling),以及對預測效果的影響。
版權聲明:
本文由笨兔勿應全部,發佈於http://www.cnblogs.com/bentuwuying。若是轉載,請註明出處,在未經做者贊成下將本文用於商業用途,將追究其法律責任。