KDD Cup 2020 AutoGraph比賽冠軍技術方案及在美團的實踐

背景

ACM SIGKDD (國際數據挖掘與知識發現大會,簡稱 KDD)是數據挖掘領域的國際頂級會議。KDD Cup比賽是由SIGKDD主辦的數據挖掘研究領域的國際頂級賽事,從1997年開始,每一年舉辦一次,是目前數據挖掘領域最具影響力的賽事。該比賽同時面向企業界和學術界,雲集了世界數據挖掘界的頂尖專家、學者、工程師、學生等參加,爲數據挖掘從業者們提供了一個學術交流和研究成果展現的平臺。KDD Cup 2020共設置五道賽題(四個賽道),分別涉及數據誤差問題(Debiasing)、多模態召回問題(Multimodalities Recall)、自動化圖學習(AutoGraph)、對抗學習問題和強化學習問題。node

圖1 KDD 2020會議

美團到店廣告平臺搜索廣告算法團隊基於自身的業務場景,一直在不斷進行前沿技術的深刻優化與算法創新,團隊在圖學習、數據誤差、多模態學習三個前沿領域均有必定的算法研究與應用,並取得了不錯的業務結果。基於這三個領域的技術積累,咱們在比賽中選擇了三道緊密聯繫的賽題,但願應用並提高這三個領域技術積累,帶來技術與業務的進一步突破。搜索廣告算法團隊的黃堅強、胡可、漆毅、曲檀、明健、博航、雷軍與中科院大學唐興元共同組建參賽隊伍Aister,參加了AutoGraph、Debiasing、Multimodalities Recall三道賽題,最終在AutoGraph賽道中得到了冠軍(1/149),在Debiasing賽道中得到冠軍(1/1895),並在Multimodalities Recall賽道中得到了季軍(3/1433)。算法

近些年來,圖神經網絡(GNN)在廣告系統、社交網絡、知識圖譜甚至生命科學等各個領域都獲得了愈來愈普遍的應用。廣告系統中存在着較爲豐富的User-Ad、Query-Ad、Ad-Ad、Query-Query等結構化關係,搜索廣告算法團隊成功地將圖表示學習應用於廣告系統上,業務效果獲得了必定的提高。此外,基於廣告系統上圖學習的技術積累,團隊在今年KDD Cup的AutoGraph賽道中斬獲了第一名。本文將介紹AutoGraph賽題的技術方案,以及團隊在廣告系統中圖表示學習的應用與研究,但願對從事相關研究的同窗可以有所幫助或者啓發。微信

圖2 KDD Cup 2020 AutoGraph比賽TOP 5榜單

賽題介紹與問題分析

AutoGraph問題概述

自動化圖表示學習挑戰賽(AutoGraph)是有史以來第一個應用於圖結構數據的AutoML挑戰,是AutoML與Graph Learning兩個前沿領域的結合。KDD Cup 2020中的AutoML賽道挑戰,由第四範式、ChaLearn、斯坦福大學和Google提供。網絡

圖結構數據在現實世界中無處不在,例如社交網絡、論文網絡、知識圖譜等。圖表示學習一直是一個很是熱門的話題,它的目標是學習圖中每一個結點的低維表示 ,而後可用於下游任務,例如社交網絡中的朋友推薦,或將學術論文分類爲引用網絡中的不一樣主題。 傳統作法通常利用啓發法從圖中提取每一個結點的特徵,例如度統計或基於隨機遊走的類似性。 近些年來,業界提出了大量用於圖表示學習任務的複雜模型,例如圖神經網絡(GNN)[1],已經幫助不少任務(例如結點分類或連接預測)取得了新的成果。架構

然而,不管是傳統的啓發式方法仍是最近基於GNN的方法,都須要投入大量的計算和專業知識資源,只有這樣才能得到使人滿意的任務性能。 例如在Deepwalk[2]和Node2Vec[3]中,必須對兩種衆所周知的基於隨機遊動的方法進行微調,以得到各類不一樣的超參數,例如每一個結點的遊走長度和數量、窗口大小等,以得到更好的性能。 而當使用GNN模型時,例如GraphSAGE[4]或GAT[5],咱們必須花費大量時間來選擇GraphSAGE中的最佳聚合函數或GAT中多頭自注意力頭的數量。 所以,因爲人類專家在調參過程須要付出大量時間和精力,進而限制了現有圖表示模型的應用。框架

AutoML[6]是下降機器學習應用程序中人力成本的一種有效方法,而且在超參數調整、模型選擇、神經體系結構搜索和特徵工程方面都取得了使人鼓舞的成績。 爲了使更多的人和組織可以充分利用其圖結構數據,KDD Cup 2020 AutoML賽道舉辦了針對圖結構數據的AutoGraph競賽。在這一競賽中,參與者應設計一個解決方案來自動化進行圖表示學習問題(無需任何人工干預)。該解決方案能夠基於圖的給定特徵、鄰域和結構信息,有效而高效地學習每一個結點的高質量表示,解決方案應設計爲自動提取和利用圖中的任何有用信號。機器學習

本次AutoGraph競賽針對自動化圖學習這一前沿領域,選擇了圖結點多分類任務來評估表示學習的質量。競賽官方準備了15個圖結構數據集,其中5個數據集可供下載,以便參賽者離線開發其解決方案。 除此以外,還將向參與者提供另外5個反饋數據集,以評估其AutoGraph解決方案的公共排行榜得分。 以後,無需人工干預,競賽的最後一次提交將在剩餘的5個數據集裏進行評估,這5個數據集對於參賽者而言是一直不可見的,評估排名最終會被用來評估全部參賽者的解決方案。 並且,這些數據集是從真實業務中收集的,隨機劃分爲訓練集和測試集,每一個數據集給予了圖結點id和結點特徵,以及圖邊和邊權信息,而且每一個數據集都給了時間預算。參賽者必須在給定的時間預算和算力內存限制下設計一個自動化圖學習解決方案,對每一個數據集進行結點分類。每一個數據集會經過精度(Accuracy)來評估準確性,經過精度能夠肯定參賽者們在每一個數據集的排名,最終排名將根據最後5個數據集的平均排名來評估。函數

數據分析與問題理解

咱們對離線五個圖數據集進行分析,發現其圖的類型多種多樣,以下表1所示。從圖的平均度能夠看出離線圖三、4較爲稠密,而圖一、二、5較爲稀疏,從特徵數量能夠看出圖一、二、三、4帶有結點特徵,圖5無結點特徵,同時咱們發現圖4是有向圖而圖一、二、三、5是無向圖,咱們考慮將圖類型劃分爲有向圖/無向圖、稠密圖/稀疏圖、帶特徵圖/無特徵圖等。性能

從表1中,咱們也能夠看出大部分圖數據集的時間限制都在100秒左右,這是一個很短的時間限制,大部分神經網絡架構和超參數搜索方案[7,8,9,10]都須要一個較長的搜索時間,須要數十個小時甚至長達數天進行架構和超參數搜索。所以,不一樣於神經網絡架構搜索,咱們須要一個結構和超參數快速搜索的方案。學習

表1 離線五個圖數據集的概況

如圖3所示,咱們發如今圖數據集5上存在着模型訓練不穩定的問題,模型在某個epoch上驗證集精度顯著降低。咱們考慮主要是圖數據集5易於學習,會發生過擬合現象,所以咱們在自動化建模過程當中須要保證模型的強魯棒性。

圖3 模型在訓練過程當中的不穩定性

同時,從下圖4能夠發現,不一樣於傳統的固定數據集評測數據挖掘競賽,保證多個類型,分佈差別大的數據集排名的穩定性相比於優化某個數據集的精度更爲重要。例如,數據集5模型精度差別僅有0.15%,卻致使了十個名次的差別,數據集3模型精度差別有1.6%,卻僅致使7個名次的差別,於是咱們須要採用排名魯棒的建模方式來加強數據集排名的穩定性。

圖4 不一樣參賽團隊在不一樣數據集上的精度及排名

問題挑戰

基於以上數據分析,該賽題中存在如下三個挑戰:

  • 圖數據的多樣性:解決方案要在多個不一樣的圖結構數據上都能達到一個好的效果,圖的類型多種多樣,包含了有向圖/無向圖、稠密圖/稀疏圖、帶特徵圖/無特徵圖等。
  • 超短期預算:大部分數據集的時間限制在100s左右,在圖結構和參數的搜索上須要有一個快速搜索的方案。
  • 魯棒性:在AutoML領域,魯棒性是很是重要的一個因素,最後一次提交要求選手在以前沒見過的數據集上進行自動化建模。

競賽技術方案

針對以上三個挑戰,咱們設計了一個自動化圖學習框架,以下圖5所示,咱們對輸入的圖預處理並進行圖特徵構建。爲了克服圖的多樣性挑戰,咱們設計了多個圖神經網絡,每一個圖神經網絡對於不一樣類型的圖有各自的優點。爲了克服超短期預算挑戰,咱們採用了一個圖神經網絡結構和超參快速搜索的方法,使用更小的搜索空間以及更少的訓練輪數來達到一個更快的搜索速度。爲了克服魯棒性挑戰,咱們設計了一個多級魯棒性模型融合策略。最終,咱們的自動化圖學習解決方案能夠在較短的時間內對多個不一樣圖結構數據進行結點分類,並達到魯棒性效果。接下來,咱們將詳細地介紹整個解決方案。

圖5 自動化圖學習框架

數據預處理與特徵構建

有向圖處理:大多數譜域GNN方法並不能很好地處理有向圖,它們的理論依賴於拉普拉斯矩陣的譜分解,而大多數有向圖的鄰接矩陣是非對稱矩陣,不能直接定義拉普利矩陣及其譜分解。特別的,當一個結點只有入度沒有出度時,GCN等方法並不能有效地獲取其鄰居信息。因爲賽題關注於結點分類而不是連接預測等,考慮大多數圖結點分類問題,更爲重要的是如何有效地提取圖的鄰居信息,於是咱們將有向圖的邊進行反轉改成無向圖,無向圖新邊的權重與有向圖被反轉邊的權重相等。

特徵提取:爲了更有效地進行結點的表示學習,提取了一些圖的人工特徵來讓GNN進行更好地表示學習,例如結點的度、一階鄰居以及二階鄰居的特徵均值等,咱們對於數值跨度大的特徵進行分桶,對這些特徵進行Embedding,避免過擬合的同時保證了數值的穩定性。

圖神經網絡模型

爲了克服圖的多樣性挑戰,咱們結合譜域及空域兩類圖神經網絡方法,採用了GCN[11]、TAGConv[12]、GraphSAGE[4]、GAT[5]四個圖神經網絡模型對多種不一樣圖結構數據進行更好地表示學習,每一個模型針對不一樣類型的圖結構數據有各自的優點。

圖做爲一種非歐式空間結構數據,其鄰居結點個數可變且無序,直接設計卷積核是困難的。譜域方法經過圖拉普拉斯矩陣的譜分解,在圖上進行傅立葉變換獲得圖卷積函數。GCN做爲譜域的經典方法,公式以下所示,其中D是對角矩陣,每一個對角元素爲對應結點的度,A是圖的鄰接矩陣,它經過給每一個結點加入自環來使得卷積函數能夠獲取自身結點信息,圖中的A帽和D帽矩陣便是加自環後的結果,並在傅立葉變換以後使用切比雪夫一階展開近似譜卷積,使每個卷積層僅處理一階鄰域信息,能夠經過堆疊多個卷積層達到多階鄰域信息傳播。GCN簡單且有效,咱們將GCN應用到全部數據集上,大部分數據集能取得較好的效果。

相較於堆疊多層獲取多階領域信息的GCN方法,TAGConv經過鄰接矩陣的多項式拓撲鏈接來獲取多階領域信息。公式以下所示,能夠發現,其經過預先計算鄰接矩陣的k次冪,相比GCN能夠在訓練過程當中實現多階鄰域卷積並行計算,高階鄰域的結果不受低階鄰域結果的影響,從而能加快模型在高階鄰域中的學習。在咱們的實驗結果上,其在稀疏圖上能快速收斂並相比於GCN能達到一個更好的效果。

相較於譜域方法利用傅立葉變換來設計卷積核參數,空域方法的核心在於直接聚合鄰居結點的信息,難點在於如何設計帶參數、可學習的卷積核。GraphSAGE提出了經典的空域學習框架,其經過圖採樣與聚合來引入帶參數可學習的卷積核,其核心思想是對每一個結點採樣固定數量的鄰居,這樣就能夠支持各類聚合函數。均值聚合函數的公式以下所示,其中的聚合函數能夠替換爲最大值聚合,甚至能夠替換爲帶參數的LSTM等神經網絡。因爲GraphSAGE帶有鄰居採樣算子,咱們引入該圖神經網絡來極大地加速稠密圖的計算。在咱們的實驗結果上,它在稠密圖上的運行時間遠小於其餘圖神經網絡,而且能達到一個較好的效果。

GAT方法將Attention機制引入圖神經網絡中,公式以下所示。它經過圖結點特徵間的Attention計算每一個結點與其鄰居結點的權重,經過權重對結點及其鄰居結點進行聚合做爲結點的下一層表示。經過Masked Attention機制,GAT能處理可變個數的鄰居結點,而且其使用圖結點及其鄰居結點的特徵來學習鄰居聚合的權重,能有效利用結點的特徵信息來進行圖卷積,泛化效果更強,它參考了Transformer引入了Multi-head Attention來提升模型的擬合能力。GAT因爲利用告終點特徵來計算結點與鄰居結點間的權重,在帶有結點特徵的數據集上表現優異,但若是特徵維度多就會使得GAT計算緩慢,甚至會出現內存溢出的現象,咱們須要在特徵維度多的狀況下對GAT的參數進行搜索限制,要求其在一個參數量更小的空間下搜索。


超參快速搜索

因爲超短期預算的挑戰,咱們須要設計一個超參快速搜索方法來保證花較少的時間就能夠對每一個圖模型進行參數搜索,而且在每一個數據集上儘量地使用更多的圖模型進行訓練和預測。以下圖6所示,咱們將參數搜索分爲線下搜索和線上搜索兩個部分。

圖6 超參快速搜索

咱們在線下搜索時,針對每個圖模型在多個數據集上使用一個大的搜索空間去肯定圖結構和參數邊界,保證每一個數據集在這個邊界中都有較好的效果。具體地,咱們對有向圖/無向圖、稀疏圖/稠密圖、帶特徵圖/無特徵圖等不一樣圖類型都對不一樣模型的大多數參數進行了搜索,肯定了幾個重要超參數。例如對於稀疏圖,調整GCN的層數以及TAGConv多項式的階數,使得其卷積感覺野更大,能夠迅速對數據集進行擬合,以使得其能夠快速收斂;對於特徵特別多的圖,調整GAT的卷積層數、多頭自注意力頭的數量和隱層神經元個數以使得其訓練時間在預算以內而且有較好的效果;對於稠密圖,調整GraphSAGE的鄰居採樣,使得其訓練能夠加速。咱們在線下主要肯定了不一樣圖模型學習率、卷積層數、隱層神經元個數等這三個重要參數的邊界。

因爲線上時間預算的限制,咱們經過線下的參數邊界肯定了一個小的參數搜索子空間進行搜索。因爲時間預算是相對少的,咱們沒有充足的時間在參數上作完整的訓練驗證搜索,所以咱們設計了一個快速參數搜索方法。對於每一個模型的超參空間,咱們經過少許epochs的訓練來比較驗證集精度從而肯定超參數。以下圖7所示,咱們經過16輪的模型訓練來選取驗證集精度最優的學習率0.003,咱們的目的是肯定哪些超參數可使得模型快速擬合該數據集,而不追求選擇最優的超參數,這樣既能夠減小超參的搜索時間,也能夠減小後續模型訓練的時間。經過快速超參搜索,咱們保證每一個模型在每一個數據集上能夠在較短內肯定超參數,從而利用這些超參數進行每一個模型的訓練。

圖7 少許epochs模型訓練下不一樣學習率的驗證集精度

多級魯棒模型融合

因爲在該次競賽中是經過數據集排名平均來肯定最終排名,故而魯棒性是特別重要的。爲了達到魯棒效果,咱們採用了一個多級魯棒模型融合策略。以下圖8所示,咱們在數據層面進行切分來進行多組模型訓練,每組模型包含訓練集及驗證集,經過驗證集精度使用Early Stopping來保證每一個模型的魯棒效果。每組模型包括多種不一樣的圖模型,每種圖模型訓練進行n-fold bagging進行融合來取得穩定效果。不一樣種類的圖模型因爲驗證精度差別較大,咱們須要對不一樣種類的圖模型進行稠密度自適應帶權融合來利用不一樣模型在不一樣數據集上的差別性。最後,咱們再對每組圖模型進行均值融合來利用數據間的差別性。

圖8 多級魯棒模型融合

稠密度自適應帶權融合:如圖4所示,因爲某些圖數據集較爲稀疏且無特徵太容易擬合,選手間精度相差小可是排名差別卻較大。例如,數據集5模型精度差別僅有0.15%,卻致使了十個名次的差別,數據集3模型精度差別有1.6%,卻僅致使7個名次的差別,於是咱們對於多種圖模型採用了稠密度自適應的融合方式。

融合權重如如下公式所示,其中#edges爲邊的數量,#nodes爲結點數量,則#edges/#nodes表示爲圖的稠密度,acc(Accuracy)爲模型驗證集精度,alpha、beta、gamma爲超參數,每一個模型的權重由weight肯定。從如下公式能夠看出,若是圖足夠稠密,則咱們只需根據模型精度差別去獲得模型權重,無需根據稠密度去自適應調整,參數alpha爲是否進行稠密度自適應加權的稠密度臨界值;若是圖足夠稀疏,則模型權重與其驗證集精度和數據集的稠密度有關,圖越稀疏,則模型權重差別越大。這是因爲圖越稀疏則模型精度差別性越小,但選手間的排名差別卻較大,則咱們須要給予更好的模型更大的權重來保證排名的穩定性。

評估結果

表2所示的是不一樣圖模型在離線五個圖數據集上的測試精度,與圖神經網絡模型章節所描述的特色一致,GCN在各個圖數據集上有較好的效果。而TAGConv在稀疏圖數據集一、二、5有更優異的效果,GraphSAGE在稠密圖數據集4上取得最好的效果,GAT在有特徵的數據集一、二、4中表現較爲良好,而模型融合在每一個數據集上都能取得更穩定且更好的效果。

表2  不一樣圖模型在離線五個圖數據集上的測試精度

以下表3所示,咱們的解決方案在每一個圖數據集上均達到魯棒性效果,每一個數據集的排行均保持較領先的水平,並避免過分擬合,從而在平均排行上取得了第一,最終咱們Aister團隊在KDD Cup 2020 AutoGraph賽題道上贏得了冠軍。

表3 Top 5參賽隊伍在最後5個數據集上全部圖數據集的平均排行及在每一個圖數據集的單獨排行

廣告業務應用

搜索廣告算法團隊負責美團與大衆點評雙平臺的搜索廣告與篩選列表廣告業務,業務類型涉及餐飲、休閒娛樂、麗人、酒店等,豐富的業務類型爲算法優化帶來很大空間與挑戰。在美團豐富的搜索廣告業務場景中,結點類型很是豐富,有用戶、Query、Ad、地理位置甚至其餘細分的組合結點,結點間的邊關係也很是多樣化,十分適合經過圖學習進行建模。咱們在搜索廣告的觸發模塊及點擊率預估模塊進行圖學習的深刻優化,帶來了業務效果的提高。

不只結點間具備豐富的邊關係,每種結點都有豐富的屬性信息,好比Ad門店包含結構化的店名、品類、地址位置、星級、銷量、客單價以及點擊購買次數等統計信息。所以,咱們的圖是一種典型的異構屬性圖。目前在搜索廣告場景下,咱們主要關注包含Query和Ad兩類結點的異構屬性圖。

以下圖9所示,咱們構建包含了Query結點和Ad結點的圖,應用於觸發模塊與點擊率預估模塊。目前,該圖使用的邊關係主要包括如下幾種:

  • Query-Query Session:用戶在一次會話中的屢次Query提交;
  • Query-Query Similarity Mining:基於用戶瀏覽點擊日誌挖掘的Query-Query相關性數據;
  • Query-Ad Click:Query下Ad的點擊;
  • Ad-Ad CoClick:在同一次請求或用戶行爲序列中,兩個Ad的共同點擊。

圖9 異構圖的構建

圖模型在觸發模塊主要應用於廣告Ad的向量召回,離線構建Ad向量索引,線上實時預估Query向量,經過ANN檢索的方式召回相關性較高的廣告Ad。相比於傳統的基於Bidword的觸發方式,基於圖模型的向量化召回在語義相關性及長尾流量上有較明顯的優點,經過增長召回率顯著提高了廣告變現效率。

圖10所示的是基於圖表示多任務學習的觸發圖網絡。咱們採用基於MetaPath的Node2Vec遊走生成正例,負例經過全局採樣獲得。在負例採樣時,咱們限定負例的品類必須和正例一致,不然因爲在特徵方面使用了品類特徵,模型會輕易地學到使用品類特徵區分正負例,弱化了其餘特徵的學習程度,致使了模型在同品類結點中區分度很差。而且負採樣時,使用結點的權重進行Alias採樣,保證與正例分佈一致。爲了加強泛化能力解決冷啓動問題,咱們使用每一個結點對應的屬性特徵而不使用結點id特徵,這些泛化特徵能夠有效地緩解冷門結點問題,異構圖中未出現的結點,也能夠根據它的屬性特徵,實時預估線上新Query或Ad的向量。

同時,對於不一樣結點類型應用不一樣的深度網絡結構,對於Query結點,咱們採用基於字粒度和詞粒度的LSTM-RNN網絡,Ad結點採用SparseEmbedding+MLP的網絡。對於異構邊類型,咱們但願在模型訓練過程當中能刻畫不一樣邊的影響。對於同一個結點,在不一樣的邊上對應單獨的一個深度網絡,多個邊的深度網絡生成的Embedding經過Attention的方式進行融合,造成結點的最終Embedding。爲了充分利用圖的結構信息,咱們主要採用GraphSage中提出的結點信息匯聚方式。在本結點生成向量的過程當中,除了利用本結點的屬性特徵外,也使用了鄰居聚合向量做爲特徵輸入,提高模型的泛化能力。

另外,在美團O2O場景下,用戶的訪問時刻、地理位置等Context信息很是重要。所以,咱們嘗試了圖模型和雙塔深度模型的多目標聯合訓練,其中雙塔模型使用了用戶瀏覽點擊數據,其中包含豐富的Context信息。Query首先通過圖模型獲得Context無關的靜態向量,而後與Context特徵Embedding拼接,通過全鏈接層獲得Context-Aware的動態Query向量。

圖10 基於圖表示學習的觸發網絡

在點擊率預估模塊,相較於側重於相關性建模的觸發模塊,更側重於用戶個性化的表達。圖結構數據可對用戶行爲序列進行補充、擴建,起到挖掘用戶潛在多峯興趣的效果,從而提升用戶點擊率。咱們經過在DSIN(Deep Session Interest Network)網絡中引入圖神經網絡,將更爲發散的用戶興趣擴充引入Session結構化建模。全局的圖結構信息不只有效擴展了用戶潛在興趣點,而且GNN Attention機制能夠將目標Ad與圖中潛在興趣Ad信息結合,進一步挖掘出用戶的目標興趣。

如圖11所示,對於任意用戶行爲序列,序列中每個Ad,均可以在Ad圖中進行鄰接點遍歷,獲得其興趣接近的其他Ad表達;用戶行爲序列是用戶的點擊序列,可視爲用戶興趣的顯示錶達;通過Ad圖拓展獲得的序列,是行爲序列在圖數據中最類似的Ad組成的序列,可視爲用戶潛在興趣的表達。用戶原始行爲序列的建模,目前基線採用DSIN模型;拓展序列的建模,則採用圖神經網絡的相關方法,利用GNN attention處理獲得興趣向量,並和目標Ad交叉。咱們的實驗顯示,在DSIN基線模型的基礎上,拓展序列還能進一步取得精度提高。

將來,咱們還會進一步探索圖模型在點擊率模塊中的應用,包括基於用戶意圖的圖模型等。

圖11 基於圖神經網絡的個性化預估網絡

總結與展望

KDD Cup是同工業界聯接很是緊密的一項國際比賽,每一年賽題緊扣業界熱點問題與實際問題,並且歷年產出的Winning Solution對工業界也都有很大的影響。例如,KDD Cup 2012產出了FFM(Feild-Aware Factorization Machine)與XGBoost的原型,在工業界已經取得了很是普遍的應用。

今年的KDD Cup主要關注在自動化圖表示學習以及推薦系統等領域上,圖表示學習在近年來既是學術界的熱點,也被工業界普遍應用。而AutoML領域則致力於探索機器學習端到端全自動化,將AutoML與圖表示學習兩大研究熱點相結合,有助於節省在圖上進行大量探索的人工成本,解決了複雜度較高的圖網絡調優問題。

本文介紹了搜索廣告算法團隊KDD Cup 2020 AutoGraph賽題的解決方案,經過對所給的離線數據集進行數據分析,咱們定位了賽題的三個主要挑戰,採用了一個自動化圖學習框架,經過多種圖神經網絡的結合解決了圖數據的多樣性挑戰,經過超參快速搜索方法來保證自動化建模方案的運行時間在預算以內,以及採用了多級魯棒模型融合策略來保證在不一樣類型數據集的魯棒性。同時,也介紹咱們在美團搜索廣告觸發模塊以及點擊率預估模塊上關於圖學習的業務應用,此次比賽也讓咱們對自動化圖表示學習的研究方向有了更進一步的認知。在將來的工做中,咱們會基於本次比賽取得的經驗進一步優化圖模型,並嘗試經過AutoML技術優化廣告系統,解決系統中難以人工遍歷的模型優化與特徵優化等問題。

參考文獻

  • [1] Wu Z, Pan S, Chen F, et al. A comprehensive survey on graph neural networks[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020.
  • [2] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. 2014: 701-710.
  • [3] Grover A, Leskovec J. node2vec: Scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD international conference on Knowledge discovery and data mining. 2016: 855-864.
  • [4] Hamilton W, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Advances in neural information processing systems. 2017: 1024-1034.
  • [5] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[J]. arXiv preprint arXiv:1710.10903, 2017.
  • [6] He X, Zhao K, Chu X. AutoML: A Survey of the State-of-the-Art[J]. arXiv preprint arXiv:1908.00709, 2019.
  • [7] Elsken T, Metzen J H, Hutter F. Neural architecture search: A survey[J]. arXiv preprint arXiv:1808.05377, 2018.
  • [8] Zhou K, Song Q, Huang X, et al. Auto-gnn: Neural architecture search of graph neural networks[J]. arXiv preprint arXiv:1909.03184, 2019.
  • [9] Gao Y, Yang H, Zhang P, et al. Graphnas: Graph neural architecture search with reinforcement learning[J]. arXiv preprint arXiv:1904.09981, 2019.
  • [10] Zhang C, Ren M, Urtasun R. Graph hypernetworks for neural architecture search[J]. arXiv preprint arXiv:1810.05749, 2018.
  • [11] Kipf T N, Welling M. Semi-supervised classification with graph convolutional networks[J]. arXiv preprint arXiv:1609.02907, 2016.
  • [12] Du J, Zhang S, Wu G, et al. Topology adaptive graph convolutional networks[J]. arXiv preprint arXiv:1710.10370, 2017.

做者簡介

  • 堅強,胡可,金鵬,雷軍,均來自美團廣告平臺搜索廣告算法團隊。
  • 唐興元,中國科學院大學。

關於美團AI

美團AI以「幫人們吃得更好,生活更好」爲核心目標,致力於在實際業務場景需求上探索前沿的人工智能技術,並將之迅速落地在實際生活服務場景中,完成線下經濟的數字化。
美團AI誕生於美團豐富的生活服務場景需求之上,具備場景驅動技術的獨特性與優點。以業務場景與豐富數據爲基礎,經過圖像識別、語音交互、天然語言處理、配送調度技術,落地於無人配送、無人微倉、智慧門店等真實場景下,覆蓋人們生活的方方面面,用科技助力用戶生活質量提高,產業智能化升級乃至整個社會的生活服務新基建建設。

更多信息請訪問:https://ai.meituan.com/

招聘信息

美團廣告平臺搜索廣告算法團隊立足搜索廣告場景,探索深度學習、強化學習、人工智能、大數據、知識圖譜、NLP和計算機視覺最前沿的技術發展,探索本地生活服務電商的價值。主要工做方向包括:

  • 觸發策略:用戶意圖識別、廣告商家數據理解,Query改寫,深度匹配,相關性建模。
  • 質量預估:廣告質量度建模。點擊率、轉化率、客單價、交易額預估。
  • 機制設計:廣告排序機制、競價機制、出價建議、流量預估、預算分配。
  • 創意優化:智能創意設計。廣告圖片、文字、團單、優惠信息等展現創意的優化。

崗位要求:

  • 有三年以上相關工做經驗,對CTR/CVR預估,NLP,圖像理解,機制設計至少一方面有應用經驗。
  • 熟悉經常使用的機器學習、深度學習、強化學習模型。
  • 具備優秀的邏輯思惟能力,對解決挑戰性問題充滿熱情,對數據敏感,善於分析/解決問題。
  • 計算機、數學相關專業碩士及以上學歷。

具有如下條件優先:

  • 有廣告/搜索/推薦等相關業務經驗。
  • 有大規模機器學習相關經驗。

感興趣的同窗可投遞簡歷至:tech@meituan.com(郵件標題請註明:廣平搜索團隊)。

閱讀更多技術文章,請掃碼關注微信公衆號-美團技術團隊!

相關文章
相關標籤/搜索