深度圖像特徵在推薦和廣告中的應用(二)

 

一直對圖像很感興趣,最近在關注一個問題:如何經過深度學習抽取圖像特徵,用於廣告和推薦。網絡

CNN 是一個簡單的網絡結構,初學者通常從MNIST入手,說起CNN第一印象可能只有經典的圖像分類的那個model。深刻了解纔會發現,學術圈和工業界是如何經過稍稍改變 Feature Map 以後的結構和目標函數等實現各類複雜任務,這其中迸發的想象力讓人激動。架構

 

Deep CTR Prediction in Display Advertising

這篇文章發表在 ACM MM16,是阿里當時的實習生作的,如今應該是正式員工了。與騰訊那篇「Image Feature Learning for Cold Start Problem in Display Advertising」 不一樣的是,這篇文章把特徵提取與點擊率預估整合在一塊兒,作到了end to end的訓練。函數

一樣來看一個例子:學習

 

b 比 a 點擊率低,是由於 b 的主體和背景的對比度過低;d 比 c 點擊,是由於用戶對多男模的圖片不太喜歡,這種case 跟騰訊廣告同窗舉得還不太同樣 😆spa

總體的網絡架構以下:3d

左側的卷積網絡用來提取圖像特徵,結構相似於 VGG16。由於上面網絡結構較爲複雜,能夠先用圖像分類任務來解決CNN的預訓練問題。code

右側是全鏈接層,相似於embedding,區別在於全鏈接層有非線性變換。輸入層是 one-hot-encode 形式,約 20w維,很是稀疏,在計算的時候,不少0輸入節點的前向後向計算均可省略,特徵存儲也能夠用下標的方式輸入,減小計算和存儲資源消耗。blog

廣告的樣本數量很大,可是CNN計算較爲耗時,若是按照 PSLR 的方式去批次訓練,訓練過程過於漫長。做者把有相同圖片的樣本聚合在一塊兒,相同圖片只用計算一次CNN。舉個例子,batchsize 爲 5000,圖片只有 10張,則CNN只用計算 10 次,右側的全鏈接層很是稀疏,計算效率很高,5000個樣本的計算時間可能比10張圖片CNN計算時間還短。圖片

實驗對比資源

  • 5千萬樣本,10w張圖片

  • 對比實驗的結果:

特徵區域的可視化

圖片中的貓、紋理、文字對點擊率有影響

 

附:公衆號 

相關文章
相關標籤/搜索