這是我閱讀《互聯網廣告算法和系統實踐》的筆記,做者王勇睿,在百度閱讀上能夠購買,書的篇幅很短,一天就能看完。前端
本書主要介紹了搜索廣告算法、非搜索(定向)廣告算法和實時競價廣告算法,爲讀者梳理了廣告中的經常使用概念如CTR、ECPM,一個廣告系統如何組成,實踐中還會考慮什麼問題,沒有涉及多的數學和算法模型。本書適合入門,但做爲小白,不少內容讀完後沒有具體的案例消化,理解深度上有所欠缺。我想當具有了必定的實踐經驗後再來翻閱此書,才能融會貫通。以後的計劃是繼續閱讀劉鵬老師的《計算廣告學》。算法
互聯網廣告算法和系統實踐數據庫
廣告是由已肯定的出資人經過各類媒介進行的有關產品(商品、服務和觀點)的、有償的、有組織的、綜合的、勸服性的非人員的信息傳播活動。後端
廣告歷史安全
好創意不但能吸引人(提高CTR),並且可以抓住人(提高ROI)。cookie
對廣告主,風險從大到小:CPM/CPT、CPC、CPS架構
廣告系統收益指標:若千次展示的指望收益CPM值eCPM。併發
\[ x_iv_{i+1}+x_{i+1}v_{i+2}+...+x_mv_{m+1} \]app
\[ x_{i+1}v_{i+1}+x_{i+2}v_{i+2}+...+x_mv_{m}+x_{m+1}v_{m+1} \]負載均衡
\[ (x_i-x_{i+1})v_{i+1}+(x_{i+1}-x{i+2})v_{i+2}+...+(x_{m-1}-x_m)v_m+(x_m-x_{m+1})v_{m+1} \]
採用極大似然估計學習特徵權重\(w\)
防止過擬合
漂移,在線學習:邏輯迴歸的對數似然函數具備樣本可加性。
CTR預估模型效果是否好:全流量-小流量實驗-離線指標驗證
衡量預估CTR和真實CTR之間差別,使用AUC衡量CTR預估精度。AUC是ROC曲線下的面積。
假設正樣本數M,負樣本數N,計算AUC開銷是M*N,經過排序減小AUC時間複雜度。
將樣本按照score大小從高到低排序,score第一大樣本得到n=M+N的rank值;第二大樣本得到rank值爲n-1。對rank爲r的正樣本i,組成正樣本score大於負樣本score的樣本對個數爲 r-排在i後的正樣本數。
所以AUC可以下方式計算
廣告主註冊一個推廣帳戶Account,包含多個推廣計劃Campaign,每一個計劃包含多個推廣單元Group,設置Group主要須要競價詞Bidword和廣告創意Creative。
一個Group完整投放需求和策略列表
搜索廣告系統須要幫助廣告主」充分表達本身投放需求」,給廣告主提供投放基本元素。
競價詞的推薦方式
競價詞的匹配方式
推薦工具實際上找到「一座橋樑「
爲了讓模型特徵量縮減,能夠將邏輯迴歸目標函數修改爲,模型將傾向於學習稀疏的\(w\)權重。
\[NLL(w)+\lambda\|w\|_1\]
隨機梯度降低法簡單易行,但每每難以獲得特徵向量稀疏的結果,Google提出FTRL-Proximal方法能夠獲得稀疏性更好的訓練結果,其更新公式爲:
定向廣告即非搜索廣告
想知道用戶n對電影m的評分,須要參考與用戶n類似的其餘用戶,用他們對m的評分來擬合n對m的評分\(r_{nm}\)。對於給定用戶\(n\),他打過度的電影集合是\(M_n\),那麼\(n\)的平均得分是\(r_n=\frac{1}{|M_n|}\sum_i^{\in}r_{ni}\),用戶n對電影m的評分能夠經過以下公式計算,
定向廣告解決「這樣一我的」應該配"什麼樣的廣告"?
定向廣告要素
第一步根據用戶歷史行爲,選定一批用戶的意圖,並找到對應的廣告。
第二步根據這些廣告,進行排序。
三類角色
線下部分:競價交易各參與者之間實現用戶ID相互轉換和對應,即Cookie Mapping。
線上部分:處理廣告請求到來時的競價和投放過程。
海量數據和存儲
可運維性
數據管理平臺DMP:Data Management Platform
DMP在4個階段保證數據安全性