CIKM 2020 | 一文詳解美團6篇精選論文

CIKM是信息檢索、知識管理和數據庫領域中頂級的國際學術會議,自1992年以來,CIKM成功匯聚上述三個領域的一流研究人員和開發人員,爲交流有關信息與知識管理研究、數據和知識庫的最新發展提供了一個國際論壇。大會的目的在於明確將來知識與信息系統發展將面臨的挑戰和問題,並經過徵集和評估應用性和理論性強的頂尖研究成果以肯定將來的研究方向。算法

今年的CIKM大會原計劃10月份在愛爾蘭的Galway舉行,因爲疫情緣由改成在線舉行。美團AI平臺/搜索與NLP部/NLP中心/知識圖譜組共有六篇論文(其中4篇長文,2篇短文)被國際會議CIKM 2020接收。數據庫

這些論文是美團知識圖譜組與西安交通大學、中國科學院大學、電子科技大學、中國人民大學、西安電子科技大學、南洋理工大學等高校院所的科研合做成果,是在多模態知識圖譜、MT-BERT、Graph Embedding和圖譜可解釋性等方向上的技術沉澱和應用。但願這些論文能幫助到更多的同窗學習成長。微信

01 《Query-aware Tip Generation for Vertical Search》

| 本論文系美團知識圖譜組與西安交通大學郝俊美同窗、中國科學院大學李燦佳同窗、西安電子科技大學汪自力同窗的合做論文。網絡

論文下載框架

可解釋性理由(又稱推薦理由)是在搜索結果頁和發現頁(場景決策、必吃榜單等)展現給用戶進行亮點推薦的一句天然語言文本,能夠看做是真實用戶評論的高度濃縮,爲用戶解釋召回結果,挖掘商戶特點,吸引用戶點擊,並對用戶進行場景化引導,輔助用戶決策從而優化垂直搜索場景中的用戶體驗。性能

現有的文本生成工做大部分並未考慮用戶的意圖信息,這限制了生成式推薦理由在場景化搜索中的落地。本文提出一種Query感知的推薦理由生成框架,將用戶Query信息分別嵌入到生成模型的編碼和解碼過程當中,根據用戶Query不一樣會自動生成適配不一樣場景的個性化推薦理由。本文分別對Transformer和遞歸神經網絡(RNN)兩種主流模型結構進行了改造。基於Transformer結構,本文經過改進Self-Attention機制來引入Query信息,包括在Encoder引入Query-aware Review Encoder使得在評論編碼最初階段就開始考慮Query相關的信息,在Decoder端引入Query-aware Tip Decoder使得在評論編碼最後階段考慮Query相關的信息。基於RNN結構,在Encoder端經過Selective Gate方式過濾掉Query無關信息,選擇原始評論中跟Query相關的信息進行編碼,並在解碼器端將Query表示向量加入Attention機制的Context向量計算,指導解碼的過程,必定程度上解決了生成方法解碼不可控的問題,從而生成Query個性化的推薦理由。學習

在公開數據集和美團業務數據集上分別進行實驗,該論文提出的方法優於現有方法。該論文提出的算法已應用上線,目前在美團的搜索、推薦、類目篩選和榜單等多場景落地。優化

02 《TABLE: A Task-Adaptive BERT-based ListwisE Ranking Model for Document Retrieval》

| 本論文系美團知識圖譜組與中國科學院軟件研究所唐弘胤同窗、金蓓弘老師的合做論文。搜索引擎

論文下載編碼

近年來,爲了提升模型的天然語言理解能力,愈來愈多的MRC和QA數據集開始涌現。可是,這些數據集或多或少存在一些缺陷,好比數據量不夠、依賴人工構造Query等。針對這些問題,微軟提出了一個基於大規模真實場景數據的閱讀理解數據集MS MARCO (Microsoft Machine Reading Comprehension)。該數據集基於Bing搜索引擎和Cortana智能助手中的真實搜索查詢產生,包含100萬查詢、800萬文檔和18萬人工編輯的答案。

基於MS MARCO數據集,微軟提出了兩種不一樣的任務:一種是給定問題,檢索全部數據集中的文檔並進行排序,屬於文檔檢索和排序任務;另外一種是根據問題和給定的相關文檔生成答案,屬於QA任務。在美團業務中,文檔檢索和排序算法在搜索、廣告、推薦等場景中都有着普遍的應用。此外,直接在全部候選文檔上進行QA任務的時間消耗是沒法接受的,QA任務必須依靠排序任務篩選出排名靠前的文檔,而排序算法的性能直接影響到QA任務的表現。基於上述緣由,咱們主要將精力放在基於MS MARCO的文檔檢索和排序任務上。

自2018年10月MACRO文檔排序任務發佈後,迄今吸引了包括阿里巴巴達摩院、Facebook、微軟、卡內基梅隆大學、清華等多家企業和高校的參與。在美團的預訓練MT-BERT平臺上,咱們提出了一種針對該文本檢索任務的BERT算法方案,稱之爲TABLE。值得注意的是,該論文提出的TABLE模型在信息檢索領域的權威評測微軟 MARCO排行榜上首個超過0.4%的模型。

如上圖所示,該論文提出了一種基於BERT的文檔檢索模型TABLE。在TABLE的預訓練階段,使用了一種領域自適應策略。在微調階段,該論文提出了兩階段的任務自適應訓練過程,即查詢類型自適應的Pointwise微調以及List微調。實驗證實這種任務自適應過程使模型更具魯棒性。這項工做能夠探索查詢和文檔之間更豐富的匹配特性。所以,該論文顯著提高了BERT在文檔檢索任務中的效果。隨後在TABLE的基礎上咱們又提出了兩個解決OOV(Out of Vocabulary)錯誤匹配的方法:精準匹配方法和詞還原機制,進一步提高了模型的效果,咱們把這個改進後的模型稱爲DR-BERT。DR-BERT的細節詳見咱們的技術博客: 《MT-BERT在文本檢索任務中的實踐》。

03 《Multi-Modal Knowledge Graphs for Recommender Systems》

| 本論文系美團知識圖譜組與中國科學院軟件研究所唐弘胤同窗、金蓓紅老師的合做論文。

論文下載

隨着知識圖譜技術發展,其結構化數據被成功的應用在了一系列下游應用當中。在推薦系統方向中,結構化的圖譜數據能夠利用目標商品更加全面的輔助信息,經過圖譜關聯進行信息傳播,從而有效地對目標商品進行表徵建模,緩解推薦系統中用戶行爲稀疏及冷啓動等問題。近年來,已經有很多研究工做利用圖譜路徑特徵、基於圖嵌入的表徵學習等方式,成功的將圖譜數據和推薦系統進行結合,使得推薦系統準確率獲得提高。

在已有的圖譜和推薦系統結合的工做當中,人們每每僅關注於圖譜節點和節點關係,而沒有利用多模態知識圖譜中的各個模態的數據進行建模。多模態數據包括圖像模態如電影的劇照,文本模態如商戶的評論等。這些多模態數據一樣能夠經過知識圖譜圖關係進行傳播和泛化,併爲下游的推薦系統帶來高價值的信息。然而,因爲多模態知識建模每每是不一樣模態的輔助信息關係,而非傳統圖譜中三元組所表明的語義關聯關係,故傳統的圖譜建模方式並不能很好地對多模態知識圖譜進行建模。

所以,本文針對多模態知識圖譜的特色提出了MKGAT模型,首次提出利用多模態知識圖譜的結構化信息提高下游推薦系統的預測準確度。MKGAT的總體模型框架以下圖所示:

在MKGAT模型中,多模態圖譜的嵌入表示學習主要分爲三個主要部分:1)咱們首先利用多模態實體編碼模塊(MKG Entity Encoder),將不一樣類型的輸入數據(圖像、文本、標籤等)編碼爲高階隱向量;2)接下來,咱們基於多模態圖注意力機制模塊(MKG Attention Layer),利用實體節點周圍的節點(包括多模態及實體節點)來爲該節點的刻畫提供相應的信息;3)在利用注意力機制綜合了多模態信息以後,再利用傳統h+r=t的訓練方法進行圖譜嵌入表示學習。

在接入下游推薦系統模型時,咱們一樣是複用了多模態實體編碼和多模態圖注意力機制模塊對目標實體進行表徵,接入推薦系統模型當中。經過上述方法,咱們在美團的美食搜索場景和公開數據集MovieLens這兩個真實數據集上進行了詳盡的實驗,結果代表在這兩個場景中MKGAT顯著地提升了推薦系統的質量。

04 《S^3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization》

| 本論文系美團知識圖譜組與中國人民大學周昆同窗、王輝同窗、朱餘韜同窗、趙鑫老師、文繼榮老師的合做論文。

論文下載

序列推薦是指利用用戶長期的交互歷史序列,預測用戶將來交互的商品,其經過建模序列信息來加強給用戶推薦的準確度。現有的序列推薦模型利用商品預測這一任務來進行模型的參數訓練,可是也受限於惟一的訓練任務,該類模型很容易受數據稀疏問題影響;它雖然優化的是最終的推薦目標,可是並無充分地建模上下文數據中的潛在關係,更沒有利用該部分信息幫助序列推薦模型。

爲解決以上問題,本文提出了一個新模型S^3-Rec,它基於自注意力網絡結構,採用自監督學習策略進行表示學習,進而優化序列化推薦任務。該模型基於四種特殊的自監督任務,這些任務分別對屬性、商品、自序列和原始序列之間的潛在關係進行學習。因爲以上四種信息表示輸入數據的四種不一樣信息粒度視角,本文采用互信息最大化策略來建模這四種信息的潛在關係,進而強化該類數據的表示。本文在包括美團場景的六個真實數據集上進行了大量的實驗,以證實該論文提出方法比現有的序列推薦先進方法的優越性,其中在有限的訓練數據場景下該模型依舊能保持較好的表現。

05《Leveraging Historical Interaction Data for Improving Conversational Recommender System》

| 本論文系美團知識圖譜組與中國人民大學周昆同窗、王輝同窗、趙鑫老師、文繼榮老師的合做論文。

論文下載

近年來,會話推薦系統已經成爲了一項重要的研究方向,它在現實生活中也有不少的應用。一個會話推薦系統須要可以經過與用戶的對話來了解用戶的意圖,進而給出合適的推薦,所以它包含一個會話模塊和推薦模塊。現有的會話推薦系統每每基於學習好的用戶表示來完成推薦,這須要對對話內容進行編碼。可是實際上僅僅使用對話數據難以準確地預測用戶的偏好信息,本論文指望可以經過利用用戶的歷史交互序列,幫助完成推薦。

基於該設想,會話推薦系統須要同時考慮用戶的歷史交互序列和會話數據,本論文提出了一種新的預訓練方法,經過預訓練方法將基於商戶的偏好序列(來自歷史交互數據)和基於商戶屬性的偏好序列(來自對話數據)結合起來,提高了會話推薦系統的效果。爲了進一步提升性能,該論文還設計了一種負樣本生成器,以產生高質量的負樣原本幫助訓練。該論文在兩個真實數據集上進行了實驗,並證實了該方法對改進會話推薦系統是有效的。

06 《Structural relationship representation learning with graph embedding for personalized product search》

| 本論文系美團知識圖譜組與南洋理工大學劉尚同窗、叢高老師的合做論文。

[論文下載](https://dl.acm.org/doi/abs/10...
)

個性化在商品搜索中很是重要,用戶的偏好在很大程度上影響着用戶的購買決策。例如,當一個年輕用戶在電子商務平臺上搜索一件「寬鬆T恤」時,他更有可能購買他感興趣、有品牌的時尚款式或襯衫。個性化商品搜索(PPS)的目的是針對給定的查詢生成用戶特有的商品建議,在不少電子商務平臺中起着相當重要的做用。

在這項工做中,咱們利用從用戶-查詢-商品中學習的邏輯結構表示,天然地保留用戶/查詢/商品之間的協做信號和交互信息在邏輯路徑上,以改進個性化的商品搜索。咱們把這些邏輯結構稱爲「Conjunctive Graph Pattern」。例如,如圖1所示,有三個關鍵模式。注意,當分支有三個或更多分支時,咱們能夠隨機抽樣其中的兩個分支,獲得如下模式:

具體來講,咱們提出一個新方法:基於邏輯結構表示學習的圖嵌入模型(GraphLSR)。GraphLSR的概念優點在於,它是一個基於嵌入的框架,能夠有效地學習邏輯結構的表示,以及用戶(查詢或商品)在幾何操做中的近似關係,並將其整合到個性化的商品搜索中。它背後的關鍵思想是,咱們學習瞭如何將三種類型的鏈接圖模式嵌入到低維空間中,經過嵌入圖來加強個性化商品搜索,框架如圖2所示,它由兩個主要組件組成:圖嵌入模塊和個性化搜索模塊。圖2下方的圖嵌入模塊利用設計的三種鏈接圖模式學習嵌入節點進行邏輯表示學習,也便於學習用戶(查詢或商品)之間的類似度。而後將表示信息引入個性化搜索模塊。

個性化搜索模塊以用戶、查詢、商品以及從圖嵌入中學習的表示做爲輸入,使用多層感知器(MLP)集成相應的信息。將提取出來的用戶、查詢和商品的短特徵和密集特徵分別輸入到MLP網絡中,學習用戶特有的查詢表明和用戶特有的商品表示,而後咱們將它們一塊兒輸入另外一個MLP來計算預測的機率分數。

表3比較了GraphLSR與四種個性化搜索方法在個性化商品搜索任務中的MRR、NDCG@10和Hit@10方面的性能:

總結

以上是搜索與NLP部知識圖譜組在多模態知識圖譜、MT-BERT、Graph-Embedding、圖譜可解釋性上所作的一些研究工做,論文成果也是咱們在實際工做場景中遇到並解決的具體問題,大部分工做已經在實際業務場景如內容搜索、商品搜索、推薦理由等項目上落地,並取得不錯的業務收益。美團AI平臺/搜索與NLP中心一直致力於經過產研結合,不斷將學術成果轉化爲技術生產力,同時也歡迎更多有志之士加入咱們團隊。

| 想閱讀更多技術文章,請關注美團技術團隊(meituantech)官方微信公衆號。在公衆號菜單欄回覆【2019年貨】、【2018年貨】、【2017年貨】、【算法】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

相關文章
相關標籤/搜索