營銷算法之爭落幕 簡化代碼與遷移學習成最大贏家

編輯 | Debra
AI 前線導讀:北京時間 6 月 5 日,IJCAI 2018 阿里媽媽國際廣告算法大賽決賽在杭州正式結束,8 支決賽隊伍通過了演講、答辯和 5 名評委的合議以後,最終由 DOG 隊得到了冠軍,藍鯨燒香隊和躺分隊分列二三名,禁止實習咋找工做啊隊和強東隊得到創新獎,這五支隊伍共同得到了 7 月前往斯德哥爾摩參加 IJCAI 2018 主會的參會資格。

更多幹貨內容請關注微信公衆號「AI 前線」,(ID:ai-front)
賽題介紹

這次大賽以「挖掘更多的技術及人才,賦能整個營銷生態」目標,賽程包括了初賽、複賽和決賽三個階段。而賽題也是隨着賽程的推動逐步深刻開放數據,難度也逐步增長。算法

這次大賽的賽題採用的數據均來自於真實業務場景,做爲阿里巴巴旗下的大數據營銷平臺,阿里媽媽擁有阿里集團的核心商業數據,這些數據一直被用於採用深度學習、在線學習、強化學習等人工智能技術來高效精準預測用戶購買意向。可是,電商平臺是一個複雜的生態系統,用戶行爲偏好、商品長尾分佈、熱點事件營銷等因素都會給轉化率預估帶來了巨大挑戰。如何更好地利用海量的交易數據來高效準確地預測用戶的購買意向,是人工智能和大數據在電子商務場景中須要繼續解決的技術難題。微信

本次比賽以阿里電商廣告爲研究對象,提供平臺的海量真實交易數據,參賽選手經過人工智能技術構建預測模型預估用戶的購買意向,即給定廣告點擊相關的用戶(user)、廣告商品(ad)、檢索詞(query)、上下文內容(context)、商店(shop)等信息的條件下預測廣告產生購買行爲的機率(pCVR),形式化定義爲:網絡

pCVR=P(conversion=1 | query, user, ad, context, shop)。結合淘寶平臺的業務場景和不一樣的流量特色,定義了「平常的轉化率預估」和「特殊日期的轉化率預估」兩類挑戰。框架

而經過選手的介紹也會發現這次的賽題難度所在,初賽時提供了前七天的數據預測第八天,而複賽則是提供了第八天上午的數據預測下午,相應的數據量也在增長,在初賽時訓練數據集爲 48 萬,測試數據集爲 6 萬;複賽時,訓練數據集爲 1000 萬,測試數據集爲 173 萬。學習

選手決賽解題思路

在經過層層篩選以後,有 8 支隊伍進入了最終決賽。這些隊伍的成員均是來自大學、科研機構或者科技公司,實力與經驗兼備。測試

冠軍 DOG 隊:簡化代碼與遷移學習

決賽的爭奪顯得異常激烈,最終奪得桂冠的是由來自產業界的花志祥單人組成的 DOG 隊。大數據

花志祥先解釋了以前初賽和複賽的解題思路。前七天的數據比較平穩,而第八天出現了較大的波動,所以根據 1 到 7 天的數據同時預測第八天上午和下午的數據,這其實就是使用了遷移學習的方法,在普通的場景下預測促銷場景的情景。而後再結合第八天促銷當日上午的銷量訓練模型來獲取結果,即預測當日下午的數據。而這個整個模型只利用 Lightgbm 來作。優化

在模型特徵方面使用了四種。統計特徵方面包括了用戶點擊商品 item 個數、最後一次搜索時間、看的最大頁數、搜索小時平均、交互時間等;時差特徵方面主要考慮了兩次交互之間的時長,在真實場景中就包括了用戶、商品 item 交互、商品品類 item_category、商品品牌 item_brand_id 兩次交互的時長等,這些因素在排序特徵中則表現爲用戶與商品的交互次數。人工智能

在表徵特徵方面,使用了詞袋統計了 property 是否存在、統計用戶的全部查看在特徵上的佔比、統計 item 被查看的用戶在這些特徵上的佔比的平均狀況,而借用這些特徵建模以實現對用戶行爲的精準預測。在覈心代碼方面,選手只用了一頁就成功展示,簡潔的代碼也是幫助其取得勝利的緣由。設計

評委們對 DOG 隊的評價爲「遷移學習的使用讓人眼前一亮,整個的方法簡單,有效,思路清晰」。

亞軍藍鯨燒香隊:模型數據完整全面

決賽得到亞軍的是由來自產業界的 BRYAN、桑楡、李困困三人組成的藍鯨燒香隊。

主講人首先把賽題進行了分析,業務場景、搜索和轉化預估是其中重點;數據分析方面,天天的樣本和交易數、天天交易率、每小時的轉化率進行總體趨勢預估;數據類型進行劃分,缺失數據採用平均數填充和衆數填充的方式填充;用戶分析方面,藉助用戶點擊次數發現低頻訴求,購買次數發現長尾分佈,兩者結合可發現即時興趣和目標明確用戶;而後深刻分析後找到數據裏的隱藏信息,最後能夠繪製天天的點擊數趨勢。

爲提高優化算法的效率,減小線上成績的運氣性成分,同時避免算法過分依賴於線上數據集的問題,所以採用了線下測試的方法,線上驗證的優化在線下有顯著的提高。在模型設計方面,團隊設計了主模型、全局數據模型、時間信息模型等三個模型來實現精準預測。

在特徵方面,藍鯨燒香把特徵羣分紅了三類特徵羣,一類原始特徵包括了基礎特徵;二類簡單特徵包括了轉化率特徵、排名特徵、佔比特徵、趨勢特徵等;三類複雜特徵則包括了 query 交互特徵、用戶交互特徵、競爭特徵、業務特徵等。利用多種特徵進行線下測試後找到不一樣特徵羣對預測準確度的提高,以找到重要的特徵。而在模型融合方面,則是採用了簡單加權融合的方式來融合 LightGBM 模型。

評委對藍鯨燒香隊的評價爲「演講使人印象深入,整個的模型數據等各方面都很是全面和完整,也取得了很是好的效果」。

季軍躺分隊:業務的深入理解

得到季軍的隊伍是由浙江工業大學陳波成、中南大學羅賓理和天津大學吳昊三人組成的躺分隊。

躺分隊先對賽題進行了解析,他們認爲賽題的難點,一方面在於如何在正常流量數據中,找到適合表達促銷或突變的特徵;另外一方面如何在模型選擇上,如何找到儘快落地於工業界的輕量級框架。經過分析後發現,最後一天爲大促日,所以建模方向能夠分紅兩種,一種是常規思路針對 User 和各項交互建模,另外一種則是針對促銷時探求變化進行建模。

所以,躺分隊提初了四套訓練方案,分辨是針對變化的 Only-七、全量數據的 All-day、全量數據的採樣 Sample-All、全量統計特徵提取 Day7 特徵 All-to-7。分別對賽題進行了驗證。

在特徵工程方面,躺分隊先對基礎特徵進行分列,而後去掉取值變化小的列,再去掉缺失值過多的列。在用戶特徵方面,經過基礎數據肯定用戶偏好行爲;再經過時間差等推出用戶的近期行爲狀況。而後對店鋪吸引的人羣情況和廣告吸引的人羣情況等進行畫像。

藉助這些特徵可使用前 7 天的數據來預測第八天的機率值,推算 Item_property_list 與 predict_category_property 的匹配程度,由於考慮到賽題實際場景,當用戶檢索時,查詢詞的預測的類目有與檢索詞相匹配,用戶更有機會購買。

在模型選擇方面選擇了神經網絡,這樣能夠將 ID 特徵放入交叉層連續特徵 Embedding。總結後發現,首先是應當對促銷時期應考慮變化特徵,其次合理的特徵提取框架是致勝之道,再者多模型的融合能夠提高精度較多。

評委對躺分隊的評價爲「對整個的系統思考很是的完整,業務理解深入,業務分析到位」。

創新獎:禁止實習咋找工做啊隊與強東隊

在本來的計劃中,決賽將會產生兩支特別獎的隊伍,可是禁止實習咋找工做啊隊與強東隊兩支隊伍的表現讓評委組臨時決定把獎項修改成創新獎,去鼓勵在過程當中有創新想法的這兩支隊伍。

禁止實習咋找工做啊隊由中科院莊曉敏、中科院計算所張衛民、香港科技大學李昊陽三人組成。他們首先將數據區分了時間區間,有效的利用了不一樣特色的歷史數據,以統計特徵分析用戶行爲;這樣作發現了兩個用戶的行爲特色,第一 User 數據稀疏大部分用戶只在一天出現,第二數據少的用戶轉化率反而高。

所以,對數據少的用戶採用構造特徵區分出來,便於模型整體判斷;而對數據較多的用戶則直接用構造特徵具體表現用戶行爲。時間特徵方面包括了小時熱點、趨勢特徵、窗口等不少都是強特徵;而比較特殊的一點在於 Embedding 特徵,同一個用戶點擊過的 item 按照時間順序排序,做爲一個 doc, 這樣一個 doc 實際表示的是用戶的點擊序列。Doc 中的每一個」word」(item) 的上下文, 表示的是用戶關注的跟這個 item 相似的 item;同理還能推算出 Shop 和 User 的特;而 Embedding 特徵在幾個模型上實驗,線下提高萬分之 3+~ 萬分之 6+;此外,由於被越多優質的網頁所指的網頁,它是優質的機率就越大,用戶點擊的 PageRank 值也同樣重要。

模型算法方面,組合特徵模型須要不一樣單模型特徵拼接作必定篩選;Kfold-average 模型的話,單模型作 10fold,9 個 fold 訓練,預測 test 集合,10fold 作 avg。能有效下降 variance,結果有提高且更加穩定。最終選定的模型便如上圖所示。

評委對禁止實習咋找工做啊隊的評價爲「團隊比較有特點,充分的挖掘了用戶序列化行爲信息、用戶表達,提高了效果」。

強東隊則是由吉林大學李強、山東大學沈鼕鼕、中南大學蔣浩然三人組成。他們首先對賽題進行了分析,發現購物交互中 98% 的用戶點擊次數是在 10 次如下的。對此作出一些特徵點,好比首次點擊、點擊次數總和、最愛商品等。可是真正對這次比賽有用的是深度學習的一些特徵,這其中主要有三種,單種類特徵的 encoding、連續特徵的分桶以後的 encoding、多特徵的 pad 以後使用 attention 加權。

多特徵可以經過 pad 能輸入到 Embedding 層,隊伍借鑑了 DIN 網絡的思路,建立 attention 層對多特徵加權。深度學習領域的 ctr 模型中大部分模型都在優化特徵的二階組合。在一階和二階使用 lr 層和 fm 層,fm 層優化到線性,多階特徵也可使用 cin 層或者 mvm 層,考慮到 cin 層的複雜度太高,使用了簡便的 mvm 層組合無限階特徵。

在 deep 層能夠獲取特徵間的非線性關係,輸入分別爲離散特徵的 embdding,連續特徵分桶後的 embdding,多特徵 attention 以後的加權向量。將 lgb 的葉子進行 encoding 放入 deep 層,能夠更加顯性的得到特徵的組合信息。

值得注意的是,在 DL 模型調試時,應當儘可能使用矩陣運算;對 embedding 層使用一維的 dropout 會減小過擬合風險;NN 特徵隨機性比較大,每次訓練出來的模型有隨機性,能夠屢次取平均;使用 hashtrick 大大減小資源的損耗。評委對強東隊的評價爲「利用深度學習方法進行端到端的學習,裏面涉及了工業模型,在全部選手中很是亮眼」。

相關文章
相關標籤/搜索