計算廣告學中的一個重要的問題是, 若是用戶產生了一次轉化(conversion, 好比購買, 註冊等), 且該用戶在轉化以前看過大量不一樣頻道(好比搜索, 展現, 社交等等)的廣告, 那麼咱們如何肯定是哪一個(或)那些頻道的廣告致使的此次轉化呢?算法
這就是歸因(Attribution)問題, 以下圖所示:機器學習
工業界採起的兩種方法是「最後閱讀獲勝」(Last View Win)和「最後點擊獲勝」(Last Click Win), 前者會把轉化歸因於這個用戶最後一次閱讀的廣告屬於的頻道, 後者會歸因於最後一次點擊的廣告屬於的頻道(若是一直沒有點擊, 則歸因於最後一次閱讀的廣告屬於的頻道). 以上兩種方法統稱爲Last-Touch Attribution. 這種方法很簡單, 可是忽略了除最後一個頻道之外的全部其餘頻道的廣告的影響, 因此效果不是很好.性能
實際上, 每一個頻道都對用戶最終的轉化產生了影響, 這種考慮多個頻道的影響的模型稱之爲多點歸因模型(Multi-Touch Attribution Model). 比較簡單的就是線性歸因模型和時間衰退歸因模型:學習
Xuhui Shao等人提出了使用機器學習的方法來解決歸因問題. 把歸因看做是分類問題, 對於每一個用戶, 若是其有轉化, 則是正樣本, 不然是否樣本. 特徵則選擇該用戶在各個頻道上的廣告的閱讀量. 在解決歸因問題時, 咱們不單單要求模型獲得很好地分類性能(正確的預測用戶是否有轉化), 更重要的是, 獲得各個頻道對於用戶的轉化的影響, 以肯定各個頻道對於用戶的轉化的做用. ui
可使用邏輯斯蒂迴歸(Logistic Regression)做爲模型, 其獲得的各個特徵(頻道)的係數做爲其對該用戶的轉化的影響. 另外, 由於用戶的行爲很複雜, 因此單個邏輯斯蒂模型獲得的係數估計的變化性可能很大, 這樣不利於解釋(由於重複試驗時獲得的各個頻道對轉化的影響變化很大). Xuhui等人提出了一種新的衡量標準: V-A metric. V(variability)衡量的是模型獲得的特徵係數(亦即各頻道對轉化的影響)的可變性, A表示的是對用戶分類的準確性.spa
Xuhui等人提出使用裝袋(bagging)方法訓練多個邏輯斯蒂迴歸模型, 對於每一個特徵, 咱們求得其係數的估計的標準差, 而後取全部特徵的標準差的平均值來做爲V. 使用多個邏輯斯蒂模型的準確率的平均值來做爲A. 算法的具體步驟爲:.net
參考文獻:3d
[1]. Xuhui Shao, Lexin Li, Data Driven Multi-Touch Attribution Models.blog
[2]. The Math Behind Multi-Touch Attribution Modelget
[3]. Multi-Channel Attribution Model: The good, Bad and Ugly Models