美團到店廣告平臺搜索廣告算法團隊基於自身的業務場景,一直在不斷進行前沿技術的深刻優化與算法創新,團隊在圖學習、數據誤差、多模態學習三個前沿領域均有必定的算法研究與應用,並取得了不錯的業務結果。git
基於這三個領域的技術積累,團隊在KDD Cup 2020比賽中選擇了三道緊密聯繫的賽題,但願應用並提高這三個領域技術積累,帶來技術與業務的進一步突破。團隊的黃堅強、胡可、漆毅、曲檀、陳明健、鄭博航、雷軍與中科院大學唐興元共同組建參賽隊伍Aister,參加了AutoGraph、Debiasing、Multimodalities Recall三道賽題,最終在AutoGraph賽道中得到了冠軍(1/149)(解決方案可見:KDD Cup 2020 Debiasing比賽冠軍技術方案與廣告業務應用),在Debiasing賽道中得到冠軍(1/1895)(解決方案可見:KDD Cup 2020 Debiasing比賽冠軍技術方案與廣告業務應用),並在Multimodalities Recall賽道中得到了季軍(3/1433)。算法
要處理天然界、生活中多種模態糾纏、互補着的信息,多模態學習是必由之路。隨着互聯網交互形態的不斷演進,多模態內容如圖文、視頻等愈加豐富;在美團的搜索廣告系統中,也體現出一樣的趨勢。搜索廣告算法團隊利用多模態學習相關技術,已在業務上取得了不錯的效果,並在今年KDD Cup的Multimodalities Recall賽道得到了第三名。微信
本文將介紹Multimodailites Recall賽題的技術方案,以及團隊在廣告業務中多模態學習相關技術的應用與研究,但願對從事相關研究的同窗可以有所幫助或者啓發。網絡
多模態召回賽題由阿里巴巴達摩院智能計算實驗室發起並組織,關注電商行業中的多模信息學習問題。2019年,全世界線上電商營收額已經達到3530億美圓。據相關預測,到2022年,總營收將增加至6540億美圓。大規模的營收和高速增加同時預示着,消費者對於電商服務有着巨大的需求。跟隨這一增加,電商行業中各類模態的信息愈來愈豐富,如直播、博客等等。怎樣在傳統的搜索引擎和推薦系統中引入這些多模信息,更好地服務消費者,值得相關從業者深刻探討。框架
本賽道提供了淘寶商城的真實數據,包括兩部分,一是搜索短句(Query)相關,爲原始數據;二是商品圖片相關,考慮到知識產權等,提供的是使用Faster RCNN在圖片上提取出的特徵向量。兩部分數據被組織爲基於Query的圖片召回問題,即有關文本模態和圖片模態的召回問題。機器學習
爲方便理解,本賽道提供了少許真實圖片及其對應的原始數據,下面是一個例子。該圖例是一個正樣例,其Query爲Sweet French Dress,圖片主體部分是一名身着甜美裙裝的女性,主體部分之外,則有大量雜亂信息,包括一個手提包、一些氣球以及一些商標和促銷文字信息。賽題自己不提供原始圖片,而提供的是Faster RCNN在圖片上提取出的特徵向量,即圖片中被框出的幾個部分。可見,一方面Faster RCNN提取了圖片中有明顯語義的內容,有助於模型學習;另外一方面,Faster RCNN的提取會包含較多的框,這些框體現不出語義的主次之分。怎樣利用這些框和文本相匹配,是該賽題的核心內容。函數
本次賽題設置的評價指標爲NDCG@5。具體來講,在給定的測試集裏,每條Query會給出約30個樣本,其中大約6條爲正樣本,其他爲負樣本。賽題須要選手設計匹配算法,召回出任意5條正樣本,便可得到該Query的所有分數,不然,按照召回的正樣本條數來計算NDCG指標做爲該Query的分數。所有Query的分數進行平均,即爲最終得分。性能
本賽道提供了三份數據集,分別稱爲訓練集、驗證集和測試集。各個數據集的基本信息以下:學習
爲進一步探索數據特色,咱們將驗證集給出的原始圖片和特徵信息作了聚合展示,下表是一組示例。測試
根據如上探索,咱們總結了數據集的三個重要特色:
本競賽是在電商的搜索數據上的一個多模信息匹配任務。從上述數據集的三個特色出發,咱們總結了該競賽的兩大主要挑戰。
第一,分佈不一致問題。經典統計機器學習的基礎假設是訓練集和測試集分佈一致,不一致的分佈一般會致使模型學偏,訓練集和驗證集效果難以對齊。咱們必須依賴於已有的大規模訓練集中的點擊信號和小規模的和測試集同分布的驗證集,設計可行的數據構建方法和模型訓練流程,採起諸如遷移學習等技術,以處理這一問題。
第二,複雜多模信息匹配問題。怎麼進行多模信息融合是多模態學習中的基礎性問題,而怎麼對複雜的多模信息進行語義匹配,是本競賽特有的挑戰。從數據看,一方面商品圖片多框,信息含量大、噪點多;另外一方面,用戶搜索Query通常具備多個細粒度屬性詞,且各個詞均在語義匹配中發揮做用。這就要求咱們在模型設計上針對性處理圖和Query兩方面的複雜性,並作好細粒度的匹配。
針對這兩大挑戰,下面將詳述搜索廣告團隊的解決方案。
咱們的方案直接回應了上述兩個挑戰,其主體部分包含兩方面的內容,一是經過聯合多樣化的負採樣策略和蒸餾學習以橋接訓練數據和測試集的分佈,處理分佈不一致問題;二是採起細粒度的文本-圖片匹配網絡,進行多模信息融合,處理複雜多模信息匹配問題。最後,經過兩階段訓練和多模融合,咱們進一步提高了模型表現,整個方案的流程以下圖所示。下面詳述方案的各個部分。
訓練集和測試集分佈不一致。最直觀的不一致是,訓練集中只有正樣本,沒有負樣本。咱們須要設計負採樣策略來構造負樣本,並儘量使得采樣出的負樣本靠近測試集真實分佈。最直觀的想法是隨機採樣。隨機採樣簡單易行,但和驗證集區別較大。分析驗證集發現,對同一Query下的候選圖片,一般有着緊密的語義關聯。如「甜美法式長裙」這一Query下,待選的圖片全是裙裝,只是在款式上有不一樣。這說明,這一多模匹配賽題須要在較細的屬性粒度上對文本和圖片進行匹配。從圖片標籤和Query詞兩個角度出發, 咱們能夠經過相應的聚類算法,使得待採樣的空間從全局細化爲類似語義條目,從而達到負採樣更貼近測試集分佈的目的。
基於如上分析,咱們設計了以下表所示的四種採樣策略來構建樣本集。這四種策略中,隨機採樣獲得的正負樣本最容易被區分,按Query最後一詞采樣獲得的正負樣本最難被區分;在訓練中,咱們從基準模型出發,先在最簡單的隨機採樣上訓練基準模型,而後在更困難的按圖片標籤採樣、按Query的聚類採樣的樣本集上基於先前的模型繼續訓練,最後在最難的按Query最後一詞采樣的樣本集上訓練。這樣由易到難、由遠到近的訓練方式,有助於模型收斂到驗證集分佈上,在測試集上取得了更好的效果。
儘管使用多種採樣策略,可從不一樣角度去逼近測試集的真實分佈,但因爲未直接利用測試集信息指導負採樣,這些採樣策略仍有不足。於是,咱們採用蒸餾學習的辦法,來進一步優化負採樣邏輯,以求拿到更貼近測試集的樣本集分佈。以下圖所示,在經過訓練集負採樣獲得的樣本集上預訓練之後(第1步),咱們將該模型在驗證集上進一步Finetune,獲得微調模型(第2步)。利用微調模型,咱們反過去在訓練集上打僞標籤,做爲Soft Label,並把Soft Label引入Loss,跟原始的0-1 Hard Label聯合學習(第3步)。這樣,訓練集的訓練上,即直接引入了驗證集的分佈信息,進一步貼近了驗證集分佈,提高了預訓練模型的表現。
多模態學習方興未艾,各種任務、模型層出不窮。針對咱們面臨的複雜圖片和搜索Query匹配的問題,參照CVPR 2017的VQA競賽的冠軍方案,咱們設計了以下的神經網絡模型做爲主模型。
該模型的設計主要考慮了以下三點:
此外,咱們採用在訓練集樣本上預訓練詞向量的方式獲得原始Query的表示,而非使用BERT模型等流行的預訓練模型。這裏的主要考慮是,數據分析指出,Query和常見的天然語句很不一樣,而更像是一組特定屬性/品類名詞組合在一塊兒的短語,這和BERT等預訓練模型所使用的語料有明顯差別。事實上,咱們初步嘗試引入Glove預訓練詞向量等,和直接在Query文本上預訓練相比,並沒有明顯收益。再考慮到BERT模型比較笨重,不利於快速迭代,咱們最終沒有使用相關的語言模型技術。
在上述技術手段的處理下,咱們獲得了多個基礎模型。這些模型都可在驗證集上進行Finetune,從而使其效果更貼近真實分佈。一方面,Finetune階段可繼續使用前述的神經網絡匹配模型。另外一方面,前述神經網絡可做爲特徵提取器,將其在規模較小的驗證集上的輸出,放入樹模型從新訓練。這一好處是樹模型和神經網絡模型異質性大,融合效果更好。最終,咱們提交的結果是多個神經網絡模型和樹模型融合的結果。
咱們以隨機採樣訓練的粗粒度(圖片表示爲全部框的平均,Query表示爲全部詞的平均)匹配網絡爲基準模型。下表列出了咱們解決方案的各個部分在基準模型上的提高效果。
搜索廣告算法團隊負責美團與點評雙平臺的搜索廣告與篩選列表廣告業務,業務類型涉及餐飲、休閒娛樂、麗人、酒店等,豐富的業務類型爲算法優化帶來很大空間與挑戰。搜索廣告中的創意優選階段,目的在經過當前搜索詞或者篩選意圖,爲用戶的每個廣告展現結果選擇高質量的圖片。用戶的搜索詞與圖片在維度,表達粒度均有較大差別,咱們採用多模態學習來解決這一問題,將跨模表達進行同空間映射。以下圖所示,在多模態網絡中,將廣告特徵、請求特徵、用戶偏好連同圖片特徵做爲輸入,其中圖片特徵經過CNN網絡提取圖片向量表示,其餘特徵經過多層MLP進行交叉獲得稠密向量表示,最終經過圖片Loss和多模Loss兩個損失函數約束模型訓練。經過這樣的建模方式,創意優選模型能夠根據查詢爲不一樣用戶的廣告結果呈現最合適的圖像。
搜索廣告系統分爲廣告觸發、創意優選,點擊率預估(廣告粒度)等模塊。其中,創意優選階段對於每一個廣告結果有超過十張的圖片候選,線上服務的計算量是點擊率預估(廣告粒度)的十倍以上,對性能有更高的要求。而爲了縮短耗時而減小模型複雜度又必然致使模型精度的的降低。
爲了平衡模型的性能和效果,咱們借鑑了知識蒸餾的思路來處理這一難題,借用了高表達能力的廣告粒度預估模型。如上圖7所示,左側模型爲複雜的廣告粒度點擊率預估模型,能夠做爲教師網絡;右側爲簡單的創意粒度優選模型,做爲學生網絡。學生網絡的目標損失函數中,除學生網絡自身輸出Logit的Logloss之外,還加入了其Logit和老師網絡輸出Logit之間的平方偏差。這一輔助Loss可以迫使學生模型的輸出和老師模型的輸出更接近。所以,學生模型能夠學得與老師模型更接近,從而達到保持相對簡單網絡規模的同時、提高精度的目的。
除此之外,底層共享Embedding的設計,也使得學生模型的底層參數可獲得老師模型的訓練。而且,在提高精度的同時,多模塊之間的一致性(例如CTR預估與創意優選)也是系統精度提升的一個關鍵,在目標與表達學習的Teacher-Student聯合訓練有利於多階段的目標統一。基於精度提高與多階段目標的一致性,咱們取得線上業務效果較爲顯著的提高。
KDD Cup是同工業界聯接很是緊密的比賽,每一年賽題緊扣業界熱點問題與實際問題,其中歷年產出的Winning Solution對工業界有很大影響。例如,KDD Cup 2012產出了FFM (Feild-Aware Factorization Machine)與XGBoost的原型,在工業界取得普遍應用。今年的KDD Cup主要關注在自動化圖表示學習以及推薦系統等領域上。天然界的信息經常是多種模態混合的,對多模信息的處理和處理是近年來的一大研究熱點。同時在工業界的搜索引擎或推薦系統中,涉及到的多模信息處理等,正變得愈來愈重要。特別是隨着直播、短視頻等業務形態的興起,多模態學習已變得不可或缺。
本文主要介紹了KDD CUP 2020的多模態競賽狀況以及美團搜索廣告算法團隊的解決方案。對數據進行充分探索後,咱們分析出競賽數據的三大特色,同時定位了賽題有兩大挑戰,即訓練集和測試集分佈不一致和複雜多模信息匹配。咱們經過多樣化負採樣策略、蒸餾學習和預訓練與Finetune等技術處理了分佈不一致問題,並經過細粒度匹配網絡處理複雜多模信息匹配問題,兩方面思路均取得了效果的顯著提高。同時,本文還介紹了多模態學習相關技術在搜索廣告業務中的實際應用狀況,包括創意優選模型中的圖片和用戶偏好聯合學習、蒸餾學習在創意模型中的應用等。經過比賽高強度、快頻率的迭代,團隊在多模態學習方面有了更深的理解。在將來的工做中咱們會基於本次比賽取得的經驗,深刻更多的多模態業務場景中進行分析和建模,發揮數據的價值。
漆毅,堅強,胡 可,雷軍等,均來自美團廣告平臺搜索廣告算法團隊。
美團AI以「幫人們吃得更好,生活更好」爲核心目標,致力於在實際業務場景需求上探索前沿的人工智能技術,並將之迅速落地在實際生活服務場景中,完成線下經濟的數字化。
美團AI誕生於美團豐富的生活服務場景需求之上,具備場景驅動技術的獨特性與優點。以業務場景與豐富數據爲基礎,經過圖像識別、語音交互、天然語言處理、配送調度技術,落地於無人配送、無人微倉、智慧門店等真實場景下,覆蓋人們生活的方方面面,用科技助力用戶生活質量提高,產業智能化升級乃至整個社會的生活服務新基建建設。
更多信息請訪問:https://ai.meituan.com/
美團廣告平臺搜索廣告算法團隊立足搜索廣告場景,探索深度學習、強化學習、人工智能、大數據、知識圖譜、NLP和計算機視覺最前沿的技術發展,探索本地生活服務電商的價值。主要工做方向包括:
崗位要求:
具有如下條件優先:
感興趣的同窗可投遞簡歷至:tech@meituan.com(郵件標題請註明:廣平搜索團隊)。
閱讀更多技術文章,請掃碼關注微信公衆號-美團技術團隊!