阿里 2017 發表在 arxiv 的文章,與前面文章的區別在於,圖像不單能夠表徵廣告,用戶點過的圖像集合也能夠用來表徵用戶,好比當前圖片與用戶點過的某張圖片很類似,用戶的點擊機率就會比較高。文章利用廣告相關id特徵、用戶相關id特徵、廣告圖像特徵、用戶點擊過的圖像特徵共同建模,end-to-end訓練,預測最終的ctr。這篇文章對標 youtube 那篇作推薦的文章Deep Neural Networks for YouTube Recommendations裏面的 rank model部分。html
點擊率模型常常用到的 parameter server logistic regression(PSLR) 更擅長於記憶,而不是泛化,因此即便在rank模型中,遇到新的 id 時,仍是存在冷啓動問題。圖像特徵重要,相同的廣告id用不一樣的圖片,點擊率可能徹底不同,因此圖像特徵其實有比較好的泛化能力,不一樣的廣告用同一張圖像,在用戶沒法分辨的狀況下,點擊率相同。網絡
框架
basicNet 和阿里那篇 Deep CTR Prediction in Display Advertising 一脈相承,經過全鏈接作 id 特徵的向量化。AdNet採用VGG16的前14層,從圖像提取 4096 維特徵。多是因爲網絡結果過於複雜,這裏的卷積層是固定的,在rank部分不會調整,這樣作也有一個好處,能夠先把全部圖片的 4096 維特徵預先計算出來,CNN不用屢次重複計算,也不須要更新權重,訓練效率會高不少。固定CNN實際上也有不得已的地方,本文的創新點在於利用了UserNet,可是UseNet帶來的一個弊端是,沒法像以前兩篇文章裏將相同圖片的樣本聚合起來減小CNN部分的計算,由於UserNet的輸入平均是37張圖片的排列組合。在4096 維特徵後面,又加入可訓練的三個全鏈接層,把一張圖像的特徵下降到 12 維。google
UserNet 的結構與 AdNet一致,區別在於,用戶點擊包含多張圖片(平均37張),如何把多張圖片的12維特徵整合成單獨的12維,其中有一些簡單的作法如 sum、avg、max,也有一些複雜的 attentive方法。spa
根據後面訓練的attentive權重來看,用戶對類似圖片的權重明顯大。3d
實驗對比server
39億樣本,2億圖片,20臺GPU集羣訓練,17個小時htm
實驗結果能夠看到圖像特徵有一些提高,可是在添加用戶點擊行爲中的圖像特徵,邊際效益不是那麼高。blog
附:公衆號 圖片