Practical Lessons from Predicting Clicks on Ads at Facebook

時間 2019-11-06

標籤 practical lessons predicting clicks ads 欄目硅谷简体版

原文原文鏈接

ABSTRACT算法

這篇paper中做者結合GBDT和LR，取得了很好的效果，比單個模型的效果高出3%。隨後做者研究了對總體預測系統產生影響的幾個因素，發現Feature（能挖掘出用戶和廣告的歷史信息）+Model（GBDT+LR）的貢獻程度最大，而其餘因素（數據實時性，模型學習速率，數據採樣）的影響則較小。工具

1. INTRODUCTION學習

介紹了先前的一些相關paper。包括Google，Yahoo，MS的關於CTR Model方面的paper。lua

而在Facebook，廣告系統是由級聯型的分類器（a cascade of classifiers）組成，而本篇paper討論的CTR Model則是這個cascade classifiers的最後一環節。3d

2. EXPERIMENTAL SETUPorm

做者介紹瞭如何構建training data和testing data，以及Evaluation Metrics。包括Normalized Entropy和Calibration。blog

Normalized Entropy的定義爲每次展示時預測獲得的log loss的平均值，除以對整個數據集的平均log loss值。之因此須要除以整個數據集的平均log loss值，是由於backgroud CTR越接近於0或1，則越容易預測取得較好的log loss值，而作了normalization後，NE便會對backgroud CTR不敏感了。這個Normalized Entropy值越低，則說明預測的效果越好。下面列出表達式：內存

Calibration的定義爲預估CTR除以真實CTR，即預測的點擊數除以真實觀察到的點擊數。這個值越接近1，則代表預測效果越好。ci

3. PREDICTION MODEL STRUCTUREget

做者介紹了兩種Online Learning的方法。包括Stochastic Gradient Descent（SGD）-based LR：

和Bayesian online learning scheme for probit regression（BOPR）：

BOPR每輪迭代時的更新公式爲：

3.1 Decision tree feature transforms

Linear Model的表達能力不夠，須要feature transformation。第一種方法是對連續feature進行分段處理（怎樣分段，以及分段的分界點是很重要的）；第二種方法是進行特徵組合，包括對離散feature作笛卡爾積，或者對連續feature使用聯合分段（joint binning），好比使用k-d tree。

而使用GBDT能做爲一種很好的feature transformation的工具，咱們能夠把GBDT中的每棵樹做爲一種類別的feature，把一個instance通過GBDT的流程（即從根節點一直往下分叉到一個特定的葉子節點）做爲一個instance的特徵組合的過程。這裏GBDT採用的是Gradient Boosting Machine + L2-TreeBoost算法。這裏是本篇paper的重點部分，放一張經典的原圖：

3.2 Data freshness

CTR預估系統是在一個動態的環境中，數據的分佈隨時在變化，因此本文探討了data freshness對預測效果的影響，代表training data的日期越靠近，效果越好。

3.3 Online linear classifier

探討了對SGD-based LR中learning rate的選擇。最好的選擇爲：

1）global效果差的緣由：每一個維度上訓練樣本的不平衡，每一個訓練樣本擁有不一樣的feature。那些擁有樣本數較少的維度的learning rate降低過快，致使沒法收斂到最優值。

2）per weight差的緣由：雖然對於各個維度有所區分，可是其對於各個維度的learning rate降低速度都太快了，訓練過早結束，沒法收斂到最優值。

SGD-based LR vs BOPR

1）SGD-based LR對比BOPR的優點：
1-1）模型參數少，內存佔用少。SGD-based LR每一個維度只有一個weight值，而BOPR每一個維度有1個均值 + 1個方差值。
1-2）計算速度快。SGD-LR只需1次內積計算，BOPR須要2次內積計算。

2）BOPR對比SGD-based LR的優點：
2-1）BOPR能夠獲得完整的預測點擊機率分佈。

4 ONLINE DATA JOINER

Online Data Joiner主要是用於在線的將label與相應的features進行join。同時做者也介紹了正負樣本的選取方式，以及選取負樣本時候的waiting time window的選擇。

5 CONTAINING MEMORY AND LATENCY

做者探討了GBDT中tree的個數，各類類型的features（包括contextual features和historical features），對預測效果的影響。結論以下：

1）NE的降低基原本自於前500棵樹。

2）最後1000棵樹對NE的下降貢獻低於0.1%。

3）Submodel 2 過擬合，數據量較少，只有其他2個模型的約四分之一。

4）Importance爲feature帶來的累積信息增益 / 平方差的減小

5）Top 10 features貢獻了將近一半的importance

6）最後的300個features的貢獻不足1%

6 COPYING WITH MASSIVE TRANING DATA

做者探討了如何進行樣本採樣的過程，包括了均勻採樣（Uniform subsampling），和負樣本降採樣（Negative down sampling），以及對預測效果的影響。

本文由笨兔勿應全部，發佈於http://www.cnblogs.com/bentuwuying。若是轉載，請註明出處，在未經做者贊成下將本文用於商業用途，將追究其法律責任。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。