本地生活綜合性需求圖譜的構建及應用

本地生活綜合性需求圖譜(GENE: lifestyle GEneral NEeds net),是從用戶需求視角出發,深刻挖掘本地生活場景下用戶多樣化的需求,並將其與多行業、多類型的供給造成關聯的知識圖譜,旨在提高平臺供需匹配效率,助力業務增加。本文介紹了本地生活綜合性需求圖譜的背景、體系設計和涉及的算法實踐,並展現了在美團多個業務線的應用落地,但願給你們帶來一些幫助或啓發。

1、背景

1.1 業務現狀

以「幫你們吃得更好,生活更好」爲使命,美團覆蓋了外賣、餐飲、酒店、民宿、旅遊、門票、電影/演出、休閒/玩樂、麗人、醫療、親子、教育、結婚、生活服務等數百個行業,知足數以億計用戶的多樣化生活服務需求。爲了持續增長平臺價值,除了推進用戶和商戶在數量和質量上的不斷提高以外,更高效地匹配用戶需求和商戶供給也是重要抓手之一。前端

爲了提高匹配的效率,咱們須要更充分、深刻地理解用戶需求和商戶供給,而且嘗試從用戶視角出發來組織和管理供給。當前,「行業-類目-商戶-商品」是一種較爲常見的供給組織和管理方式,然而隨着業務和行業的快速發展,這種組織方式帶來的痛點日漸突顯,舉例來講:算法

  • 部分指向性不明確的用戶需求,較可貴到適合的匹配結果。例如「週末陪寶寶去哪兒玩?」因爲平臺的匹配結果不理想,用戶每每只能在線下完成類目決策,決定帶寶寶去農家樂燒烤,再到平臺上搜索相應的農家樂團購。
  • 部分需求跨多個類目,匹配過程不夠流暢。例如「週末和朋友去哪裏放鬆一下?」用戶在線下完成類目決策後,可選類目包括KTV、酒吧、密室、桌遊等,但各種目的承載頁面相互獨立,用戶須要在承載頁面間來回切換。
  • 在部分指向明確的類目中,用戶仍然難以找到知足本身需求的供給。例如在醫美類目下,由於缺少相關知識,用戶每每並不瞭解商戶提供的形形色色的服務項目分別具備什麼功效,適合什麼部位,應該使用什麼材料,沒法高效地找到適合本身的服務供給。

上述問題的本質緣由在於供給的組織方式主要是從行業視角出發,沒有充分考慮到用戶視角。在當前以知足用戶需求爲首要目標的市場環境下,咱們須要迭代完善現有的供給組織方式。segmentfault

1.2 問題解析

爲了解決上述問題,咱們嘗試從一個外部視角,結合第一性原理去進行剖析。在整我的類社會中,按照馬斯洛需求層次[1]的理論,人的需求是能夠被概括及分層的。若是將人類社會看做一個系統,人類在其中一個稱爲「市場」的子系統中,經過交易來知足本身的需求。後端

人類從需求層次出發,在市場中完成交易,最終需求得以知足,那麼在市場中交易的過程能夠被拆解爲「起心動念->考慮->選擇評估->交易購買->履約/服務」。而且,經由前三個階段,用戶的需求逐漸從粗粒度演變爲細粒度,從抽象過渡到具象。下面將結合具體的例子來進行解讀:安全

  • 需求層次:在馬斯洛需求層次中有一個情感層次,對應了人類豐富多樣的情感需求,包含親情、友情、愛情等等。做爲一個母親,與本身的寶寶之間每每存在一種強烈的母子情,而且但願不斷去強化這種情感。
  • 起心動念:爲此,母親每每都會盡力花較多的時間去陪伴寶寶。經過增長陪伴方式的維度,變爲「陪寶寶玩」;經過增長時間、空間等維度,變爲「週末陪寶寶去哪兒玩?」
  • 考慮:對於上述問題,母親會找出不少種方案,好比戶外燒烤、農家採摘、主題公園等等。當她決定選用戶外燒烤這一方案時,便會轉化爲具體的商品需求,如購買烤架。
  • 評估選擇:母親因而在可觸達的供給範圍中進行選擇。正如人們常說的貨比三家,選擇的依據會各不相同,如價格、質量、口碑等等。
  • 交易購買:當完成選擇以後,母親便會進行交易,以換取商品或服務。
  • 履約服務:即商品到貨、完成服務等等。

市場是人類社會的一個子系統,電商平臺則是市場中的一個子系統。同時,電商平臺是一種線上化的子系統,它提供了搜索、推薦等形式的供給檢索能力。當前的一個現狀是:用戶每每在線下完成了「起心動念」到「考慮」的過程,轉化爲具體的商品/服務需求,隨後進入電商平臺完成「選擇評估」到「履約服務」的後續過程(以下圖1所示)。而電商平臺每每聚焦於後三個階段的能力提高,容易忽略前兩個階段。網絡

圖1

所以,用戶較難造成在平臺上完成「起心動念」和「考慮」的心智,而大部分電商平臺按「行業-類目-商戶-商品」的方式對供給進行組織和管理。最終,用戶和電商平臺之間造成了一種相互掣肘的關係。運維

事實上,相對於「烤架」這種明確的商品需求,用戶還有不少抽象的、模糊的、不明確的需求,依然停留在前兩個階段。例如,週末陪寶寶去哪兒玩?週末和朋友去哪裏放鬆一下?結婚前怎樣才能讓本身變得更美?暑假如何培養孩子的動手能力?同時,這樣的需求每每跨越多個類目,或者在同類目下存在多種選擇。ide

電商平臺只有打破既有的掣肘關係,向用戶提供前兩個階段(起心動念、考慮)的能力,才能進一步知足用戶的需求。用戶的決策成本進一步下降,決策過程更加連貫,用戶體驗也能獲得相應的提高,同時用戶在市場中的交易過程也可以進一步實現線上化。函數

以「行業-類目-商戶-商品」做爲參考,若是電商平臺可以識別出用戶在前兩個階段的需求,而且在其和供給之間創建新的關聯關係,輔以搜索、推薦等檢索能力,用戶便有可能在線上完成前兩個階段。而知識圖譜做爲一種揭示實體之間關係的語義網絡,用以解決上述問題顯得尤其合適。學習

2、解決方案

2.1 解決思路

延續1.2中的例子,這位母親將「週末陪寶寶去哪兒玩?」的需求轉化爲具體的「戶外燒烤」需求,延伸至更爲具體的「烤架」和「農家樂團購」需求。此時,母親便會分別前往各種實物電商平臺以及以美團爲表明的生活服務電商平臺進行「選擇評估」。兩種電商平臺分別在實物供給池或服務供給池中採用搜索、推薦之類的召排技術定位到具體的商品/服務,並反饋給這位母親。

對於1.2中的所述,技術團隊指望達成的目的,目前比較有表明性的參考案例是阿里巴巴電商認知圖譜AliCoCo[2]。它基本構建思路是從用戶視角出發,先進行各類類型的原子詞挖掘,再進一步對原子詞進行組合和挖掘出相關候選短語,再從中識別出真實的用戶需求,最後關聯至相應的供給。它的層次結構如圖2所示:

  • 分類層:構建完備的分類體系,包含了的大千世界的各類分類,既有通用的空間、時間等類別,也有電商中涉及的顏色、功能以及最爲重要的品類等類別。
  • 原子概念層:在分類層諸多類別的基礎上進行擴展,包含了各類類別下的原子概念(例如空間->戶外、事件->燒烤、時間->聖誕節、顏色->紅色、功能->保暖、品類->連衣裙)及原子概念之間的關係。
  • 電商概念層:在原子概念層之上,包含了由原子概念組成或直接挖掘的短語粒度的用戶購物需求,即電商概念(例如戶外燒烤),從而將用戶購物需求顯式地用一個符合天然語言的短語表示。
  • 商品層:包含了商品與各類原子概念、電商概念之間的關聯關係(例如戶外燒烤->烤架、黃油、錫紙)。

圖2

基於上述圖譜,這位母親能夠直接在天貓上表達「戶外燒烤」的需求,而非更具體的「烤架」;天貓也會將烤架之外其餘和戶外燒烤相關的重要商品反饋給這位母親。從對應關係來看,AliCoCo的電商概念層對應至「考慮」階段,商品層對應至「選擇評估」階段。顯然,因爲AliCoCo的存在,天貓可以從「考慮」階段開始介入用戶的交易過程。

由此推論,咱們應該能夠將圖譜構建得更爲完整,以覆蓋「起心動念」階段。在此階段,人類的需求,按馬斯洛需求層次,經過增長一個或多個維度約束,而被逐漸具象化。對於這樣的維度約束,咱們統稱爲「場景約束」。所以,咱們將「考慮」階段對應的需求稱爲「具象需求」;將「起心動念」階段對應的需求稱爲「場景需求」。爲此,咱們但願構建一個本地生活綜合性需求圖譜(GENE:lifestyle GEneral NEeds net,以下圖3所示。對於本地生活場景下所涉及的數百個綜合性行業,咱們認爲新的供給組織方式更能貼近用戶需求,也是從用戶視角去解決供需匹配的問題。

圖3

2.2 具體方案

延續2.1中的構建思路,咱們嘗試構建一套多層次的圖譜結構,並將「具象需求」和「場景需求」拆分爲獨立的層次,既避免了兩種類型的需求合在同一層級中而引發混淆,又能對用戶場景化的需求進行更詳盡的拆解、更豐富的刻畫。本地生活綜合性需求圖譜(GENE),主要由六部分構成,包含場景需求層、場景要素層、具象需求層、需求對象層、行業體系層和供給層,以下圖4所示:

圖4

在場景需求層,咱們用Human-Readable的短句來表徵場景化的用戶需求,如「國慶節陪3歲寶寶去哪玩」、「結婚前讓本身變得更美」、「小學生提高思惟能力」等。一個場景需求的表述中,一般會包含人物、目的、時間、空間、方式等要素,以「國慶節陪3歲寶寶去哪玩」爲例,「3歲寶寶」是人物,「陪寶寶玩」是目的,「國慶節」是時間。

在場景要素層,爲了更好地表達場景需求,咱們將這些短句進行拆解,細化成多個細粒度的詞彙,用這些詞彙對場景需求中的人物、目的、時間、空間、方式等要素進行完整的覆蓋和系統的組織,咱們將其稱爲「場景要素」。

在具象需求層,因爲場景需求的表述每每並不顯式地指向某個具體的服務/供給,而是隱含了一批潛在的適合這一場景的服務/供給。例如,在「國慶節陪3歲寶寶去哪玩」這個例子中,戶外燒烤、餵羊駝、玩滑梯、騎小馬等都是適合這一場景需求的具體服務。因此咱們須要將全部這些具體的服務經過短語的形式顯式的展示出來,這些短語直接反應了用戶具體的服務需求,被稱之爲「具象需求」。

在需求對象層,爲了進一步的理解具象需求,咱們將具象需求分爲具體的服務需求所對應的對象,咱們稱之爲「需求對象」,以及該服務中用戶和對象之間的交互行爲。例如,對於具象需求餵羊駝,能夠分爲羊駝(需求對象)和喂(服務交互),因爲本地生活服務的多樣性,圍繞羊駝這一需求對象,除了餵羊駝外,還能夠產生觸摸羊駝、騎羊駝和看羊駝表演等多種具象需求。這一層除了包含需求對象節點外,也會涵蓋需求對象的屬性信息,以對需求對象進行更詳盡地描述。例如對於具象需求戶外燒烤,可分爲燒烤(需求對象)、戶外(需求對象屬性)和體驗(隱含的服務交互)。

在行業體系層,因爲用戶的場景需求和具象需求每每會跨越多個傳統的服務類目,爲了給用戶需求肯定一個具體的業務範圍,咱們還須要構建出各行業涉及的類目體系,做爲上述各層構建的業務基礎。

在供給層,包含內容這類虛擬供給和商戶與商品這類實體供給,這些供給將會和具象需求和場景需求等節點進行關聯,從而爲用戶需求提供相對應的供給支撐。例如,一個提供戶外燒烤的供給將會關聯上具象需求「戶外燒烤」,並進一步關聯上場景需求「國慶節陪3歲寶寶去哪玩」。

綜上所述,在本地生活綜合性需求圖譜中,用戶場景化的需求和具體的服務需求被分別表達成短句級別的場景需求和短語級別的具象需求。這兩種需求分別經過場景要素和需求對象進行表達。最後,不一樣類型的供給都會和場景需求和具象需求相關聯,從而以用戶需求爲紐帶,提高供給和用戶的匹配效率。

3、實現方法

當前,本地生活綜合性需求圖譜已經初步涵蓋了用戶在玩樂、醫美和教育三個本地生活相關行業中的多元化需求。咱們在圖譜的構建過程當中,自底向上按照行業體系層、需求對象層、具象需求層、場景要素層、場景需求層的順序逐層進行構建,並將各層的節點與各類類型的供給創建關聯關係。下文將以玩樂行業爲例,對圖譜每一層的構建細節以及涉及的算法進行介紹。

3.1 行業體系層

3.1.1 行業類目樹的構建

在玩樂行業中,行業體系層包含了可以提供玩樂服務的類目,類目信息經過一個樹形結構來表徵。因爲玩樂行業體系的構建,對專家知識的要求很是高,而且這部分的設計對後續各層的知識挖掘相當重要,所以咱們沒有直接進行人工定義,而是以當前咱們成熟的行業類目樹爲基礎,經過對其進行剪枝和分裂來構建。

首先在類目樹中篩選出和玩樂相關的一級類目節點,包括「休閒娛樂」、「親子」、「旅遊」、「餐飲」等。對於每一個一級類目,咱們進一步篩選其和玩樂相關的下一級類目直至葉子類目,並剪去與玩樂無關的類目。此外,咱們還對剪枝後的類目樹中能夠細分的玩樂相關的葉子類目進行分裂,例如將「洗浴」細分爲「私湯」、「洗浴中心」等,最終獲得完整的玩樂行業類目樹。

3.1.2 類目的供給關聯

肯定了類目樹後,咱們還須要獲取實體供給(商戶和商品)和虛擬供給(內容,例如UGC)與類目的從屬關係,從而爲後續的一系列挖掘提供數據支持。因爲商品和內容都可連接到商戶,因此咱們只須要獲取商戶與類目的從屬關係便可。玩樂類目樹是對咱們已有的類目進行剪枝和分裂獲得的,除了分裂出的新類目外,其他類目和商戶的關係都可直接繼承原有的結果。對於新分裂的類目,咱們則須要從新構建商戶和其之間的從屬關係。

要判斷一個商戶屬於哪一個類目,最直觀的依據就是商戶名、商品名及商品詳情,然而不少商戶的商戶名和商品包含的信息每每較少,增長了類目判別的難度。爲了確保商戶類目判別的準確性,咱們引入更多的商戶信息,包括商戶UGC和商戶畫像,設計了一個多源異構數據融合判別模型,總體模型結構以下圖5所示:

圖5

其中,不一樣來源數據的特徵提取和處理方式以下:

  • 商戶名、商品名及商品詳情:均爲文本數據,直接經過BERT[3]提取文本特徵後輸出。
  • 商戶UGC:因爲商戶的UGC每每數量很是多,爲了對其信息進行有效利用,首先經過Doc2Vec[4]的方式進行Encode獲得UGC的特徵後,再經過一個Self-Attention[5]模塊進行特徵處理後輸出。
  • 商戶畫像:轉成One-Hot特徵後,經過全鏈接層進行非線性映射後輸出。

上述三種特徵相鏈接後進行融合,經過全鏈接層和softmax層實現最終的類目判別。基於多源數據的融合建模,商戶信息獲得了充分利用。以洗浴細分類目爲例,僅利用商戶名、商品名及商品詳情數據,基於BERT判別,準確率爲92%,而基於多源融合模型判別後,準確率提高到98%。

3.2 需求對象層

在需求對象層,咱們但願可以挖掘出玩樂行業體系中各種目涉及的玩樂對象詞做爲該層的節點,這些詞可以描述出用戶在實際玩樂過程當中的交互對象,這是用於組成具象玩樂需求的基礎。爲了確保玩樂對象挖掘的全面性,咱們採用多源多方法的形式。

在數據上,咱們採用來自商戶和用戶的相關文本做爲挖掘語料。在方法上,咱們採用兩種方式來挖掘玩樂對象詞:

  • 第一種是無監督的擴充,在開始挖掘前運營會首先根據經驗,提供一些玩樂對象詞做爲種子輸入,咱們提早利用語料構建無監督的Skip-Gram結構的Word2Vec模型,對業務輸入的種子詞提取詞向量,並結合餘弦類似度,快速擴充相關的對象詞。
  • 第二種是有監督的標註,咱們將其定義序列標註問題,採用基於BERT+CRF的模型,在語料中自動識別出新的對象詞。

在實踐過程當中,爲了更高效的挖掘,咱們將無監督環節擴充和質檢後的對象詞在語料中進行文本匹配,並將匹配結果轉化爲有監督標註環節的訓練樣本;同時對於有監督標註的結果,通過運營質檢後,也會將其做爲無監督擴充的輸入,經過兩個環節相結合,咱們完成玩樂對象的挖掘,完整流程以下圖6所示。此外,在運營人工審覈玩樂對象詞的過程當中,對於一些業務已知的核心玩樂對象,也會直接輸入業務側已經沉澱的相關特徵做爲其屬性,進一步完善玩樂對象的信息,例如對於「劇本殺」這一玩樂對象,增長相應的「實景」和「桌面」等類型屬性。

圖6

在獲取對象詞後,咱們還須要知道對象詞屬於哪一個類目,以便下一步的具象需求挖掘及供給關聯,爲此咱們構建對象詞和類目之間的關係。經過各種目下的語料文本中說起對象詞的次數來衡量二者關係,是最直觀且準確率最高的方法。所以,咱們直接使用對象詞在每一個類目下的語料中進行文本匹配,經過詞頻高低來肯定關係。同時,咱們進一步構建對象詞之間的上下位和同義關係,當前常見的有經過投影和分類(如BERT句間關係模型)等方法來進行關係判別等有監督方法。在實際過程當中,咱們採用規則輔助人工的方式,基於對象詞的統計特徵及Pattern共現的結果指導人工快速完成構建。

3.3 具象需求層

3.3.1 具象需求挖掘

具象需求層能夠當作是用戶在玩樂行業中的具體服務需求的集合,每一個具象玩樂需求是該層的一個節點,由玩樂對象疊加用戶與對象之間的多元化的交互行爲及對象描述信息獲得,它經過短語的形式表達出用戶對於玩樂服務供給的本質訴求。具體玩樂需求挖掘的流程流程能夠分爲兩個步驟:

  1. 候選短語生成:圍繞玩樂對象詞,生成大量包含玩樂對象的短語,做爲具象玩樂需求候選集。
  2. 短語質量判別:創建一個語義判別模型從候選集中提取真實的具象玩樂需求。

候選短語生成

在步驟1中,首先咱們以需求對象詞爲核心,採用與玩樂對象挖掘相同的語料,進行候選短語的生成。經常使用的短語挖掘算法如AutoPhrase[6],是以Ngram來進行短語組合,而這種形式對於有需求對象的短語顯得過於冗餘,因此咱們考慮基於句法結構來進行短語挖掘。

爲了使生成短語符合句法的要求,咱們以預設的句法關係爲模板進行挖掘。在大規模語料中爲了更高效地挖掘句法關係,咱們基於更輕便的ELECTRA[7]預訓練模型獲取句子各成分的Embedding後,再利用BiAffine[8]預測其句法關係。經過依存句法分析,咱們在各個類目的語料中挖掘出包含相應的玩樂對象且符合句法關係的短語。此外,需求對象層中對象的屬性也會被用做對象描述進行短語生成。最終全部挖掘的短語,通過詞頻等統計特徵粗篩後將做爲具象玩樂需求的候選集,挖掘示例如圖7(a)所示。

圖7

短語質量判別

在步驟2中,通過步驟1獲取的候選集短語雖然符合預設的句法關係,可是從語義上仍然存在大量與用戶實際需求不符的表述,經過抽檢分析咱們發現符合要求的短語不足10%。如何從海量的候選短語中挑選出反映真實的用戶具象玩樂需求的短語成爲亟需解決的問題。

AutoPhrase經過基於短語統計特徵的判別模型進行短語打分,然而僅經過統計特徵難以識別語義質量低的短語,爲此咱們進一步基於統計和語義特徵聯合建模,構建一個Wide&Deep[9]結構的判別模型,對候選集合中的短語是否爲具象玩樂需求進行判別,咱們但願判別模型能過濾掉大量的低質短語,從而爲運營節省大量的人力成本。判別模型的總體結構如圖7(b)所示,其中:

  • Wide部分,提取候選短語的全局和上下文的統計特徵,經過全鏈接層進行非線性映射後輸出。
  • Deep部分,提取候選短語的深度語義特徵,經過BERT完成相應特徵的提取後輸出。

上述Wide和Deep部分輸出的特徵相鏈接後進行融合,優點互補,通過全鏈接層和softmax層來實現最終的短語判別。在實踐過程當中,除了直接使用已經積累的短語標籤做爲正樣本外,咱們還經過預設一些常識性的Pattern從候選集中構造正樣本,例如觀賞[植物]、觸摸[動物],並對候選集採樣構造負樣本,完成第一版模型的訓練,以後結合主動學習,通過多輪迭代,模型最終達到92%的召回率和85%的準確率。經過質量判別後保留的短語則會交由運營人工審覈提煉後成爲最終的具象玩樂需求。

3.3.2 具象需求的供給關聯

在具象需求層中,因爲具象玩樂需求是由玩樂對象獲得的,因此二者之間自然地創建了對應關係。而對於具象玩樂需求之間的上下位和同義關係,則能夠基於其對象之間的關係及其句法關係,在人工審覈的環節來輔助人工完成構建。除此以外,更重要的是須要將具象玩樂需求與實體供給(商戶和商品)及虛擬供給(內容,例如UGC)進行關聯。

咱們將這個問題抽象爲一個語義匹配的問題,經過具象玩樂需求與其對應的類目的供給的文本信息進行匹配來實現,其中,商戶使用商戶名文本信息,商品使用商品名和商品詳情文本信息,UGC使用其自身文本信息。因爲UGC和商品屬於商戶的一部分,因此具象玩樂需求與UGC/商品的關係也會加入其與商戶關係的構建中。總體匹配流程以下圖8所示,咱們首先進行具象玩樂需求與UGC/商品的匹配,在此基礎上再結合商戶名文本的匹配結果,一塊兒經過規則聚合後關聯到商戶。

圖8

因爲具象玩樂需求數量衆多,同時供給的文本信息一般包含多個子句,出於效率和效果的平衡考慮,咱們將匹配過程分爲了召回和排序兩個階段。

在召回階段,咱們粗篩出和具象玩樂需求可能有潛在關聯的子句。對於具象玩樂需求,咱們基於構建的同義關係,擴展具象需求的同義標籤,並將其與子句文本進行粗粒度Pattern匹配,對於匹配中的子句則將進入到排序階段進行精細化的關聯關係計算。

在排序階段,咱們構建基於BERT句間關係分類的語義匹配模型,經過在BERT後增長全鏈接層和softmax層來實現分類。模型經過對召回階段獲得的粗篩樣本進行預測,識別二者在語義上的匹配關係(關聯/不關聯)。最終供給關聯關係的平均召回率和準確率分別達到90%和95%。

3.4 場景要素層

3.4.1 場景要素拆解

場景要素層包含了組成用戶場景化需求的場景要素。如文初說起,要描述一個場景,須要交代特定的人物、時間、空間、目的等要素。例如,對於「國慶節陪3歲寶寶去哪兒玩?」這個場景化需求,咱們可作以下拆解:時間-國慶節,人物-3歲寶寶,目的-親情陪伴(陪寶寶玩)。因此咱們按照上述方式,對場景要素進行拆解,以期對場景要素的挖掘和梳理儘量的全面與系統。

3.4.2 場景要素挖掘

完成了場景要素拆解後,下一步就是要分別在每一個拆解的類別中進行場景要素的挖掘。場景要素做爲具象需求的場景化的信息,每每來自於用戶的直觀感覺,因此挖掘的語料咱們選擇與具象玩樂需求關聯的UGC的上下文語料。與需求對象挖掘的方法相似,咱們將每一個類別的已提煉總結的場景要素做爲種子詞,經過相關要素擴充和序列標註的方式完成場景要素的挖掘。

肯定場景要素後,接下來的關鍵是完成場景要素與具象玩樂需求的關係構建,即對於每一個場景要素,找出其適合的具象玩樂需求,如春季適合觀賞櫻花、孩子適合親近動物。咱們經過對UGC文本分析後發現,UGC中用戶說到某一具象玩樂需求的同時,每每也會交代一些相關的場景要素信息,因此咱們繼續選擇與具象玩樂需求關聯的UGC的上下文語料,做爲關係構建的數據來源。

最初咱們採用基於Pattern的方法,經過概括可用於判斷場景要素和具象玩樂需求關係的Pattern,從語料中直接抽取包含二者的文本。但因爲用戶表達的多樣性,不只準確率沒法保證,同時有限的Pattern也影響了召回,所以咱們進一步嘗試使用基於模型判別的方法提高泛化性,完善關係的構建。

圖9

因爲咱們使用的語料中的具象玩樂需求是已知的,若是將場景要素當作是具象玩樂需求的屬性,那麼問題就能夠當作是一個屬性級(Aspect-Based)的分類問題。參考屬性級情感分類的作法[10],咱們經過預設句子模板的方式,結合場景要素和具象玩樂需求構造出輔助句子,將屬性級分類轉換爲一個類QA的句對分類問題。例如,對於已經關聯了「餵羊駝」這一具象玩樂需求的某個語料:「這個週六咱們到農家樂餵了羊駝」,其中一個輔助句子爲「週末適合餵羊駝」。

咱們採用BERT句間關係分類模型來實現句對分類,如圖9所示。輔助句子與語料文本經過[SEP]相連後輸入模型進行判別,模型輸出判別結果(適合/不適合)。最後咱們根據在全部語料上的關係提取結果,對每一個場景要素和具象需求之間的關係進行投票計算評分後來肯定二者的關係。

3.5 場景需求層

3.5.1 場景需求組裝

在場景需求層,咱們會將場景要素層和具象需求層的信息進行組裝,從而生成大量的場景需求。組裝出的場景需求,既可能僅含場景要素,如「國慶節陪3歲寶寶去哪兒玩?」不含任何具象需求,又能夠同時包含場景要素和具象需求,如「週末去郊外摘草莓」中,週末、郊外是場景要素,摘草莓是具象需求。

3.5.2 場景需求判別

對於組裝獲得的場景需求,最重要的是保證其合理性,例如「週末」和「親子」就是合理的玩樂場景,而「閨蜜」和「親子」則是矛盾的玩樂場景。爲此,咱們首先須要計算場景要素之間的關係評分,從而指導場景需求的組裝。場景要素只有依託具象需求,搭配上適合的玩法,參與組裝的場景需求才有意義。所以,對於場景要素之間的合理關係構建,咱們嘗試以場景要素和具象需求的關係得分做爲依據,經過關係傳遞評估兩個場景要素之間的相關性。

在3.4.2節中,咱們已經量化了場景要素和具象需求之間的關係評分,一個最直觀的想法是經過場景要素-具象需求-場景要素的關係傳遞來進行計算場景要素之間關係的計算。如圖10(a)所示,以具象需求「餵羊駝」爲紐帶,能夠獲取「親子」和「閨蜜」兩個場景要素的關係得分。

咱們首先構建場景要素和具象需求的關係評分矩陣,考慮到玩法數量知足長尾分佈的狀況,對矩陣進行具象需求維度的列歸一化處理,同時爲了保證場景要素-場景要素矩陣的自相關係數爲1,對歸一化後的場景要素-具象需求矩陣進行L2行範數歸一化處理,所以該歸一化矩陣與自身轉置的矩陣乘獲得的新矩陣便可做爲場景要素-場景要素的關係評分矩陣。

圖10

經過上述方法能夠很快獲得場景要素之間的關係評分,然而該方法僅以場景要素-具象需求-場景要素的關係傳遞模式,計算場景要素在具象需求上的直接共指強弱,致使場景要素關係的覆蓋不足。爲此,咱們擴展爲更長的節點關係鏈傳遞模式,這種節點之間的傳遞關係是服從馬爾可夫性質的,如圖10(b)所示。可是隨着傳遞路徑的增加,計算成本會呈指數級增加。因此咱們採用強化學習[11]中的One-Step時序差分方法進行求解,以「累計回報的指望最大化」的概念做爲節點的價值,以場景要素節點集合做爲強化學習概念中的狀態空間,具象需求節點集合做爲動做空間。

例如當咱們處在「親子」場景要素這個狀態下,能夠經過選擇「餵羊駝」或者「角色扮演」來跳轉到下一個狀態「閨蜜」或「戶外」。該狀態跳轉過程的決策函數,根據當前場景要素狀態關聯的全部具象需求中隨機抽取一個具象需求節點做爲決策行爲,抽取機率與得分正相關;狀態轉移機率則爲在該具象需求節點決策下,隨機跳轉到與之相關聯的場景要素,跳轉機率與得分正相關。

同時,對於特定的互斥關係,咱們根據實際的業務應用需求制定獎勵矩陣實現多樣化的場景要素關係評分模型。這樣咱們將節點關係傳遞模型轉化爲了馬爾可夫決策模型,結合貝爾曼最優原理推導出的價值迭表明達式和節點對關係得分預測公式,如圖10(c)所示。根據圖示的公式,在保持策略不變的前提下采用自舉迭代的思想計算節點的價值,並進一步計算場景要素之間的關係評分,既可以保證更充分的利用已有的關係網絡信息,提升關係覆蓋,又能經過獎勵矩陣的約束關係下降互斥關係的影響,靈活適應不一樣業務的需求。

最後基於場景要素之間的關係評分,咱們從組裝的場景需求集合中選擇評分高的場景需求,並根據預設的模板生成最終的場景需求表達,例如「週末和朋友放鬆」、「和閨蜜一塊兒玩」、「國慶節帶孩子戶外燒烤好去處」。這些場景需求經過其包含的場景要素/具象玩樂需求,能夠連接到相應的具象玩樂需求,進而關聯相關的供給,從而給用戶提供場景化玩樂的解決方案。

4、應用實踐

本地生活綜合性需求圖譜,涵蓋了用戶的場景需求和具象需求,一方面更前置地參與用戶決策,在「起心動念」、「考慮」、「選擇評估」等多個階段影響用戶,下降其決策成本,另外一方面,提供更多樣化的供給選擇,高效地進行供需匹配。應用方式上,應用於搜索、推薦等各種業務形態。

通過近一年的建設,當前綜合性需求圖譜包含數十萬核心具象需求和場景需求節點,以及數千萬的關係,並在美團的親子、休閒娛樂、醫美、教育培訓等多個業務進行了初步的應用實踐,下面舉例介紹具體的應用方式和應用效果。

4.1 親子

親子原頻道頁用戶需求和供給之間匹配效率低下,其中ICON按照親子傳統類目劃分,沒法知足用戶不一樣類型的需求(圖11(a)左),而底部猜喜的供給形態單一,且體現用戶需求的優質供給不足,決策信息不足(圖11(b)左),所以對親子頻道頁進行改版。爲了貼合親子的業務特點,咱們將親子玩樂相關的需求節點和關係,應用於頻道改版後的多個流量位,爲其提供標籤和供給數據的支撐。

圖11

其中,對於ICON,基於高頻的場景和具象需求,跨類目生成需求ICON,如「親近動物」、「帶娃泡湯」等(圖11(a)中)及相應二級頁(圖11(a)右),這些ICON包含了本來多個類目中的類似需求,在用戶「考慮」階段爲其提供決策信息。

對於底部推薦,咱們圍繞親子玩樂的具象需求進行供給優化,將其關聯的內容做爲優質供給進行推薦,併爲每一個供給提取包含相應具象需求的文本,做爲推薦理由外露,這些句子從用戶實際需求的角度展現信息,極大地吸引了用戶(圖11(b)右)。此外,還進一步根據瀏覽和交易行爲,以供給爲媒介創建具象需求與用戶的關聯關係,應用於個性化推薦的召回和排序的優化。改版後的親子頻道頁,知足了用戶多樣化的推薦需求,極大地改善了用戶體驗。

4.2 休閒娛樂

在休閒娛樂頻道頁,咱們圍繞場景需求和具象需求進行了一系列應用。一方面,基於玩樂的場景需求組織新的場景ICON,如知足用戶戶外遊玩的「踏青賞花」、知足用戶在室內潮流玩樂的「室內潮玩」、知足喜歡晚上玩樂用戶的「夜生活」、知足和朋友同事聚會玩樂的「團建聚會」,這些ICON從用戶場景化的玩樂出發,打破了傳統類目的限制,讓用戶和供給的匹配更加流暢,每一個ICON的二級頁面則會展現每一個場景的具象玩法需求及關聯的商戶和內容。

另外一方面,在頻道頁場景導航模塊中,嘗試利用場景需求來進一步展現場景化的玩樂信息,包括「一人樂」、「家庭暖」、「過生日」等十多個玩樂場景主題,並針對這些場景的具象需求關聯的商戶進行推薦。這些場景化的應用(圖12(a)),在「起心動念」階段即做用於用戶,提高了用戶的決策效率。

圖12

此外,部分具象需求通過改寫能夠直接用於相應類目的列表頁商戶的快篩,例如實景劇本殺/桌面劇本殺,換裝/漢服體驗/擼寵必去/飛行模擬等(圖12(b)左和中),而咱們在行業體系層中類目的細分結果,亦能夠成爲商戶的快篩,例如洗浴類目的細分(圖12(b)右),這些快篩的應用,更加方便了用戶選店。

5、總結展望

在本地生活服務中,如何不斷提升供給和用戶之間的匹配效率,是擺在咱們面前的一道難題。咱們嘗試以用戶關注對象爲切入點,經過深挖用戶需求並以其爲紐帶來關聯供給和用戶。爲了全方位挖掘和理解用戶需求,咱們努力探索並嘗試構建本地生活綜合性需求圖譜,以行業體系層、需求對象層、具象需求層、場景要素層、場景需求層的順序逐層構建,併爲各類類型的供給創建關聯關係。

目前,綜合性需求圖譜的結果可應用於搜索、推薦等各種業務形態,並已在美團多個業務場景中取得實踐成果。不過,咱們還處在探索的初級階段,接下來還有很長的迭代之路要走,在此咱們提出一些後續的思考和展望:

  • 更廣的行業覆蓋:一方面加深對已有的玩樂、醫美和教育行業的建設,挖掘更多的節點和關係,更好的理解用戶需求;一方面向麗人、結婚等更多的行業進行橫向覆蓋;此外還將進一步擴展到用戶決策的全鏈路,構建服務體驗圖譜,覆蓋履約服務環節,分析其中的用戶需求和反饋,更好地賦能商家提高用戶體驗。
  • 更多的數據引入:當前圖譜的構建主要是以平臺的用戶和商戶的文本語料爲主,下一步將利用圖像等更多模態的數據,並嘗試引入外部的知識,對當前的節點和關係進行完善和補充。
  • 更深的圖譜應用:現階段圖譜在搜索和推薦上的實踐主要集中在標籤及其關聯供給的直接應用,後續考慮進一步深化圖譜的應用,充分利用場景需求和場景要素的信息,爲推薦側更準的用戶意圖識別提供支撐,從而提高供給和用戶的匹配效率,發揮出知識圖譜更大的價值。

參考文獻

  • [1] Maslow A H. A theory of human motivation[J]. Psychological review, 1943, 50(4): 370.
  • [2] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]. Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
  • [3] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [4] Le Q, Mikolov T. Distributed representations of sentences and documents[C]. International conference on machine learning. PMLR, 2014: 1188-1196.
  • [5] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. arXiv preprint arXiv:1706.03762, 2017.
  • [6] Shang J, Liu J, Jiang M, et al. Automated phrase mining from massive text corpora[J]. IEEE Transactions on Knowledge and Data Engineering, 2018, 30(10): 1825-1837.
  • [7] Clark K, Luong M T, Le Q V, et al. Electra: Pre-training text encoders as discriminators rather than generators[J]. arXiv preprint arXiv:2003.10555, 2020.
  • [8] Dozat T, Manning C D. Deep biaffine attention for neural dependency parsing[J]. arXiv preprint arXiv:1611.01734, 2016.
  • [9] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]. Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
  • [10] Sun C, Huang L, Qiu X. Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence[J]. arXiv preprint arXiv:1903.09588, 2019.
  • [11] Sutton R S, Barto A G. Reinforcement learning: An introduction[J]. 2011.

做者簡介

李翔、陳煥、志偉、曉陽、豔婷、旭樂、曹臻等,均來自美團到店平臺技術部到綜業務數據團隊。

招聘信息

美團到店平臺技術部-到綜業務數據團隊,長期招聘算法(天然語言處理/推薦算法)、數據倉庫、數據科學、系統開發等崗位同窗,座標上海。歡迎感興趣的同窗發送簡歷至:mailto:licong.yu@meituan.com

閱讀美團技術團隊更多技術文章合集

前端 | 算法 | 後端 | 數據 | 安全 | 運維 | iOS | Android | 測試

| 在公衆號菜單欄對話框回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著做權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明「內容轉載自美團技術團隊」。本文未經許可,不得進行商業性轉載或者使用。任何商用行爲,請發送郵件至mailto:tech@meituan.com申請受權。

相關文章
相關標籤/搜索