常識性概念圖譜建設以及在美團場景中的應用

常識性概念圖譜,是圍繞常識性概念創建的實體以及實體之間的關係,同時側重美團的場景構建的一類知識圖譜。本文介紹了美團常識性概念圖譜構建的Schema,圖譜建設中遇到的挑戰以及建設過程當中的算法實踐,最後介紹了一些目前常識性概念圖譜在業務上的應用。

1、引言

在天然語言處理中,咱們常常思考,怎麼樣才能作好天然語言的理解工做。對咱們人類來講,理解某一個天然語言的文本信息,一般都是經過當前的信息,關聯本身大腦中存儲的關聯信息,最終理解信息。例如「他不喜歡吃蘋果,可是喜歡吃冰淇淋」,人在理解的時候關聯出大腦中的認知信息:蘋果,甜的,口感有點脆;冰淇淋,比蘋果甜,口感軟糯、冰涼,夏天能解暑;小孩更喜歡吃甜食和冰淇淋。因此結合這樣的知識,會推理出更喜歡冰淇淋的若干緣由。可是如今不少天然語言理解的工做仍是聚焦在信息的層面,如今的理解工做相似於一個貝葉斯機率,從已知的訓練文本中尋找符合條件的最大化文本信息。html

在天然語言處理中作到像人同樣去理解文本是天然語言處理的終極目標,因此如今愈來愈多的研究上,引入了一些額外的知識,幫助機器作好天然語言文本的理解工做。單純的文本信息只是外部客觀事實的表述,知識則是在文本信息基礎之上對外部客觀事實的概括和總結,因此在天然語言處理中加入輔助的知識信息,讓天然語言理解的更好。前端

創建知識體系則是一種直接的方式,可以幫助天然語言理解得更準確。知識圖譜就是圍繞這個思想提出,指望經過給機器顯性的知識,讓機器可以像人同樣進行推理理解。因此在2012年Google 正式提出了知識圖譜(Knowledge Graph)的概念,它的初衷是爲了優化搜索引擎返回的結果,加強用戶的搜索質量及體驗。算法

圖1 信息和知識

2、常識性概念圖譜介紹

常識性概念圖譜就是創建概念與概念之間的關係,幫助天然語言文本的理解。同時咱們的常識性概念圖譜側重美團場景,幫助提高美團場景中的搜索、推薦、Feeds流等的效果。後端

按照理解的需求,主要是三個維度的理解能力:安全

  1. 是什麼,概念是什麼,創建核心概念是什麼的關聯體系。例如「維修洗衣機」,「維修」是什麼,「洗衣機」是什麼。
  2. 什麼樣,核心概念某一方面的屬性,對核心概念某一方面的細化。「帶露臺的餐廳」、「親子游樂園」、「水果千層蛋糕」中「帶露臺」、「親子」、「水果千層」這些都是核心概念某一個方面的屬性,因此須要創建核心概念對應屬性以及屬性值之間的關聯。
  3. 給什麼,解決搜索概念和承接概念之間的Gap,例如「閱讀」、「逛街」、「遛娃」等沒有明確對應的供給概念,因此創建搜索和供給概念之間的關聯網絡,解決這一類問題。

總結下來,涵蓋「是什麼」的概念Taxonomy體系結構,「什麼樣」的概念屬性關係,「給什麼」的概念承接關係。同時POI(Point of Interesting)、SPU(Standard Product Unit)、團單做爲美團場景中的實例,須要和圖譜中的概念創建鏈接。網絡

圖2 常識性概念圖譜關係

從建設目標出發,拆解總體常識性概念圖譜建設工做,拆分爲三類節點和四類關係,具體內容以下。架構

2.1 圖譜三類節點

Taxonomy節點:在概念圖譜中,理解一個概念須要合理的知識體系,預約義好的Taxonomy知識體系做爲理解的基礎,在預約義的體系中分爲兩類節點:第一類在美團場景中能夠做爲核心品類出現的,例如,食材、項目、場所;另外一類是做爲對核心品類限定方式出現的,例如,顏色、方式、風格。這兩類的節點的定義都能幫助搜索、推薦等的理解。目前預約義的Taxonomy節點以下圖所示:app

圖3 圖譜Taxonomy預約義體系

原子概念節點:組成圖譜最小語義單元節點,有獨立語義的最小粒度詞語,例如網紅、狗咖、臉部、補水等。定義的原子概念,所有須要掛靠到定義的Taxonomy節點之上。框架

複合概念節點:由原子概念以及對應屬性組合而成的概念節點,例如臉部補水、面部補水等。複合概念須要和其對應的核心詞概念創建上下位關係。運維

2.2 圖譜四類關係

同義/上下位關係:語義上的同義/上下位關係,例如臉部補水-syn-面部補水等。定義的Taxonomy體系也是一種上下位的關係,因此歸併到同義/上下位關係裏。

圖4 上下位、同義關係示例

概念屬性關係:是典型的CPV(Concept-Property-Value)關係,從各個屬性維度來描述和定義概念,例如火鍋-口味-不辣,火鍋-規格-單人等,示例以下:

圖5 概念屬性關係示例

概念屬性關係包含兩類。

預約義概念屬性:目前咱們預約義典型的概念屬性以下:

圖6 預約義屬性

開放型概念屬性:除了咱們本身定義的公共的概念屬性外,咱們還從文本中挖掘一些特定的屬性詞,補充一些特定的屬性詞。例如,姿式、主題、溫馨度、口碑等。

概念承接關係:這類關係主要創建用戶搜索概念和美團承接概念之間的連接,例如踏春-場所-植物園,減壓-項目-拳擊等。

概念承接關係以「事件」爲核心,定義了「場所」、「物品」、「人羣」、「時間」、「功效」等可以知足用戶需求的一類供給概念。以事件「美白」爲例,「美白」做爲用戶的需求,能夠有不一樣的供給概念可以知足,例如美容院、水光針等。目前,定義的幾類承接關係以下圖所示:

圖7 概念承接關係類型

POI/SPU-概念關係:POI做爲美團場景中的實例,實例-概念的關係做爲知識圖譜中最後的一站,經常是比較能發揮知識圖譜在業務上價值的地方。在搜索、推薦等業務場景,最終的目的是可以展現出符合用戶需求的POI,因此創建POI/SPU-概念的關係是整個美團場景常識性概念圖譜重要的一環,也是比較有價值的數據。

3、常識性概念圖譜構建

圖譜構建總體框架以下圖所示:

圖8 概念圖譜建設總體工做

3.1 概念挖掘

常識性概念圖譜的各類關係都是圍繞概念構建,這些概念的挖掘是常識性概念圖譜建設的第一環。按照原子概念和複合概念兩種類型,分別採起相應的方法進行挖掘。

3.1.1 原子概念挖掘

原子概念候選來自於Query、UGC(User Generated Content)、團單等文本分詞後的最小片斷,原子概念的判斷標準是須要知足流行性、有意義、完整性三個特性的要求。

  1. 流行性,一個概念應是某個或某些語料內流行度較高的詞,該特性主要經過頻率類特徵度量,如「桌本殺」這個詞搜索量很低且UGC語料中頻率也很低,不知足流行性要求。
  2. 有意義,一個概念應是一個有意義的詞,該特性主要經過語義特徵度量,如「阿貓」、「阿狗」一般只表一個單純的名稱而無其餘實際含義。
  3. 完整性,一個概念應是一個完整的詞,該特性主要經過獨立檢索佔比(該詞做爲Query的搜索量/包含該詞的Query的總搜索量)衡量,如「兒童設」是一個錯誤的分詞候選,在UGC中頻率較高,但獨立檢索佔比低。

基於原子概念以上的特性,結合人工標註以及規則自動構造的訓練數據訓練XGBoost分類模型對原子概念是否合理進行判斷。

3.1.2 複合概念挖掘

複合概念候選來自於原子概念的組合,因爲涉及組合,複合概念的判斷比原子概念判斷更爲複雜。複合概念要求在保證完整語義的同時,在美團站內也要有必定的認知。根據問題的類型,採用Wide&Deep的模型結構,Deep側負責語義的判斷,Wide側引入站內的信息。

圖9 複合概念挖掘的Wide&Deep模型

該模型結構有如下兩個特色,對複合概念的合理性進行更準確的判斷:

  1. Wide&Deep模型結構:將離散特徵與深度模型結合起來判斷複合概念是否合理。
  2. Graph Embedding特徵:引入詞組搭配間的關聯信息,如「食品」能夠與「人羣」、「烹飪方式」、「品質」等進行搭配。

3.2 概念上下位關係挖掘

在獲取概念以後,還須要理解一個概念「是什麼」,一方面經過人工定義的Taxonomy知識體系中的上下位關係進行理解,另外一方面經過概念間的上下位關係進行理解。

3.2.1 概念-Taxonomy間上下位關係

概念-Taxonomy間上下位關係是經過人工定義的知識體系理解一個概念是什麼,因爲Taxonomy類型是人工定義好的類型,能夠把這個問題轉化成一個分類問題。同時,一個概念在Taxonomy體系中可能會有多個類型,如「青檸魚」既是一種「動物」,也屬於「食材」的範疇,因此這裏最終把這個問題做爲一個Entity Typing的任務來處理,將概念及其對應上下文做爲模型輸入,並將不一樣Taxonomy類別放在同一空間中進行判斷,具體的模型結構以下圖所示:

圖10 BERT Taxonomy關係模型

3.2.2 概念-概念間上下位關係

知識體系經過人工定義的類型來理解一個概念是什麼,但人工定義的類型始終是有限的,若是上位詞不在人工定義的類型中,這樣的上下位關係則沒辦法理解。如能夠經過概念-Taxonomy關係理解「西洋樂器」、「樂器」、「二胡」都是一種「物品」,但沒辦法獲取到「西洋樂器」和「樂器」、「二胡」和「樂器」之間的上下位關係。基於以上的問題,對於概念-概念間存在的上下位關係,目前採起以下兩種方法進行挖掘:

基於詞法規則的方法:主要解決原子概念和複合概念間的上下位關係,利用候選關係對在詞法上的包含關係(如西洋樂器-樂器)挖掘上下位關係。

基於上下文判斷的方法:詞法規則能夠解決在詞法上存在包含關係的上下位關係對的判斷。對於不存在詞法上的包含關係的上下位關係對,如「二胡-樂器」,首先須要進行上下位關係發現,抽取出「二胡-樂器」這樣的關係候選,再進行上下位關係判斷,判斷「二胡-樂器」是一個合理的上下位關係對。考慮到人在解釋一個對象時會對這個對象的類型進行相關介紹,如在對「二胡」這個概念進行解釋時會提到「二胡是一種傳統樂器」,從這樣的解釋性文本中,既能夠將「二胡-樂器」這樣的關係候選對抽取出來,也能同時實現這個關係候選對是否合理的判斷。這裏在上下位關係挖掘上分爲候選關係描述抽取以及上下位關係分類兩部分:

  1. 候選關係描述抽取:兩個概念從屬於相同的Taxonomy類型是一個候選概念對是上下位關係對的必要條件,如「二胡」和「樂器」都屬於Taxonomy體系中定義的「物品」,根據概念-Taxonomy上下位關係的結果,對於待挖掘上下位關係的概念,找到跟它Taxonomy類型一致的候選概念組成候選關係對,而後在文本中根據候選關係對的共現篩選出用做上下位關係分類的候選關係描述句。
  2. 上下位關係分類:在獲取到候選關係描述句後,須要結合上下文對上下位關係是否合理進行判斷,這裏將兩個概念在文中的起始位置和終止位置用特殊標記標記出來,並以兩個概念在文中起始位置標記處的向量拼接起來做爲二者關係的表示,根據這個表示對上下位關係進行分類,向量表示使用BERT輸出的結果,詳細的模型結構以下圖所示:

圖11 BERT上下位關係模型

在訓練數據構造上,因爲上下位關係表述的句子很是稀疏,大量共現的句子並無明確的表示出候選關係對是否具備上下位關係,利用已有上下位關係採起遠程監督方式進行訓練數據構建不可行,因此直接使用人工標註的訓練集對模型進行訓練。因爲人工標註的數量比較有限,量級在千級別,這裏結合Google的半監督學習算法UDA(Unsupervised Data Augmentation)對模型效果進行提高,最終Precision能夠達到90%+,詳細指標見表1:

表1 使用UDA在不一樣訓練數據量下的提高效果

3.3 概念屬性關係挖掘

概念含有的屬性能夠按照屬性是否通用劃分爲公共屬性和開放屬性。公共屬性是由人工定義的、大多數概念都含有的屬性,例如價位、風格、品質等。開放屬性指某些特定的概念才含有的屬性,例如,「植髮」、「美睫」和「劇本殺」分別含有開放屬性「密度」、「翹度」和「邏輯」。開放屬性的數量遠遠多於公共屬性。針對這兩種屬性關係,咱們分別採用如下兩種方式進行挖掘。

3.3.1 基於複合概念挖掘公共屬性關係

因爲公共屬性的通用性,公共屬性關係(CPV)中的Value一般和Concept以複合概念的形式組合出現,例如,平價商場、日式料理、紅色電影高清。咱們將關係挖掘任務轉化爲依存分析和細粒度NER任務(可參考《美團搜索中NER技術的探索與實踐》一文),依存分析識別出複合概念中的核心實體和修飾成分,細粒度NER判斷出具體屬性值。例如,給定複合概念「紅色電影高清」,依存分析識別出「電影」這個核心概念,「紅色」、「高清」是「電影」的屬性,細粒度NER預測出屬性值分別爲「風格(Style)」、「品質評價(高清)」。

依存分析和細粒度NER有能夠互相利用的信息,例如「畢業公仔」,「時間(Time)」和「產品(Product))」的實體類型,與「公仔」是核心詞的依存信息,能夠相互促進訓練,所以將兩個任務聯合學習。可是因爲兩個任務之間的關聯程度並不明確,存在較大噪聲,使用Meta-LSTM,將Feature-Level的聯合學習優化爲Function-Level的聯合學習,將硬共享變爲動態共享,下降兩個任務之間噪聲影響。

模型的總體架構以下所示:

圖12 依存分析-細粒度NER聯合學習模型

目前,概念修飾關係總體準確率在85%左右。

3.3.2 基於開放屬性詞挖掘特定屬性關係

開放屬性詞和屬性值的挖掘

開放屬性關係須要挖掘不一樣概念特有的屬性和屬性值,它的難點在於開放屬性和開放屬性值的識別。經過觀察數據發現,一些通用的屬性值(例如:好、壞、高、低、多、少),一般和屬性搭配出現(例如:環境好、溫度高、人流量大)。因此咱們採起一種基於模板的Bootstrapping方法自動從用戶評論中挖掘屬性和屬性值,挖掘流程以下:

圖13 開放屬性挖掘流程

在挖掘了開放屬性詞和屬性值以後,開放屬性關係的挖掘拆分爲「概念-屬性」二元組的挖掘和「概念-屬性-屬性值」三元組的挖掘。

概念-屬性的挖掘

「概念-屬性」二元組的挖掘,即判斷概念Concept是否含有屬性Property。挖掘步驟以下:

  • 根據概念和屬性在UGC中的共現特徵,利用TFIDF變種算法挖掘概念對應的典型屬性做爲候選。
  • 將候選概念屬性構造爲簡單的天然表述句,利用通順度語言模型判斷句子的通順度,保留通順度高的概念屬性。

概念-屬性-屬性值的挖掘

在獲得「概念-屬性」二元組後,挖掘對應屬性值的步驟以下:

  • 種子挖掘。基於共現特徵和語言模型從UGC中挖掘種子三元組。
  • 模板挖掘。利用種子三元組從UGC中構建合適的模板(例如,「水溫是否合適,是選擇游泳館的重要標準。」)。
  • 關係生成。利用種子三元組填充模板,訓練掩碼語言模型用於關係生成。

圖14 概念屬性關係生成模型

目前,開放領域的概念屬性關係準確率在80%左右。

3.4 概念承接關係挖掘

概念承接關係是創建用戶搜索概念和美團承接概念之間的關聯。例如,當用戶搜索「踏青」時,真正的意圖是但願尋找「適合踏青的地方」,所以平臺經過「郊野公園」、「植物園」等概念進行承接。關係的挖掘須要從0到1進行,因此整個概念承接關係挖掘根據不一樣階段的挖掘重點設計了不一樣的挖掘算法,能夠分爲三個階段:①初期的種子挖掘;②中期的深度判別模型挖掘;③後期的關係補全。詳細介紹以下。

3.4.1 基於共現特徵挖掘種子數據

爲了解決關係抽取任務中的冷啓動問題,業界一般採用Bootstrapping的方法,經過人工設定的少許種子和模板,自動從語料中擴充數據。然而,Bootstrapping方法不只受限於模板的質量,並且應用於美團的場景中有着自然缺陷。美團語料的主要來源是用戶評論,而用戶評論的表述十分口語化及多樣化,很難設計通用並且有效的模板。所以,咱們拋棄基於模板的方法,而是根據實體間的共現特徵以及類目特徵,構建了一個三元對比學習網絡,自動從非結構化的文本中挖掘實體關係之間潛在的相關性信息。

具體來講,咱們觀察到不一樣商戶類目下用戶評論中實體的分佈差別較大。例如,美食類目下的UGC常常涉及到「聚餐」、「點菜」、「餐廳」;健身類目下的UGC常常涉及到「減肥」、「私教」、「健身房」;而「裝修」、「大廳」等通用實體在各個類目下都會出現。所以,咱們構建了三元對比學習網絡,使得同類目下的用戶評論表示靠近,不一樣類目的用戶評論表示遠離。與Word2Vec等預訓練詞向量系統相似,經過該對比學習策略獲得的詞向量層自然蘊含豐富的關係信息。在預測時,對於任意的用戶搜索概念,能夠經過計算其與全部承接概念之間的語義類似度,輔以搜索業務上的統計特徵,獲得一批高質量的種子數據。

圖15 概念承接關係挖掘的Triplet Network

3.4.2 基於種子數據訓練深度模型

預訓練語言模型近兩年來在NLP領域取得了很大的進展,基於大型的預訓練模型微調下游任務,是NLP領域很是流行的作法。所以,在關係挖掘中期,咱們採用基於BERT的關係判別模型(參考《美團BERT的探索和實踐》一文),利用BERT預訓練時學到的大量語言自己的知識來幫助關係抽取任務。

模型結構以下圖所示。首先,根據實體間的共現特徵獲得候選實體對,召回包含候選實體對的用戶評論;而後,沿用MTB論文中的實體標記方法,在兩個實體的開始位置和結束位置分別插入特殊的標誌符號,通過BERT建模以後,將兩個實體開始位置的特殊符號拼接起來做爲關係表示;最後,將關係表示輸入Softmax層判斷實體間是否含有關係。

圖16 概念承接關係判別模型

3.4.3 基於已有的圖譜結構進行關係補全

經過上述兩個階段,已經從非結構化的文本信息中構建出了一個初具規模的概念承接關係的圖譜。可是因爲語義模型的侷限性,當前圖譜中存在大量的三元組缺失。爲了進一步豐富概念圖譜,補全缺失的關係信息,咱們應用知識圖譜連接預測中的TransE算法以及圖神經網絡等技術,對已有的概念圖譜進行補全。

爲了充分利用已知圖譜的結構信息,咱們採用基於關係的圖注意力神經網絡(RGAT,Relational Graph Attention Network)來建模圖結構信息。RGAT利用關係注意力機制,克服了傳統GCN、GAT沒法建模邊類型的缺陷,更適用於建模概念圖譜此類異構網絡。在利用RGAT獲得實體稠密嵌入以後,咱們使用TransE做爲損失函數。TransE將三元組(h,r,t)中的r視爲從h到t的翻譯向量,並約定h+r≈t。該方法被普遍適用於知識圖譜補全任務當中,顯示出極強的魯棒性和可拓展性。

具體細節以下圖所示,RGAT中每層結點的特徵由鄰居結點特徵的均值以及鄰邊特徵的均值加權拼接而成,經過關係注意力機制,不一樣的結點和邊具備不一樣的權重係數。在獲得最後一層的結點和邊特徵後,咱們利用TransE做爲訓練目標,對訓練集中的每對三元組(h,r,t),最小化||h+r=t||。在預測時,對於每一個頭實體和每種關係,圖譜全部結點做爲候選尾實體與其計算距離,獲得最終的尾實體。

圖17 概念承接關係補足圖示

目前概念承接關係總體準確率90%左右。

3.5 POI/SPU-概念關係建設

創建圖譜概念和美團實例之間的關聯,會利用到POI/SPU名稱、類目、用戶評論等多個維度的信息。創建關聯的難點在於如何從多樣化的信息中獲取與圖譜概念相關的信息。所以,咱們經過同義詞召回實例下全部與概念語義相關的子句,而後利用判別模型判斷概念與子句的關聯程度。具體流程以下:

  • 同義詞聚類。對於待打標的概念,根據圖譜同義詞數據,獲取概念的多種表述。
  • 候選子句生成。根據同義詞聚類的結果,從商戶名稱、團單名稱、用戶評論等多個來源中召回候選子句。
  • 判別模型。利用概念-文本關聯判別模型(以下圖所示)判斷概念和子句是否匹配。

圖18 概念打標判別模型

  • 打標結果。調整閾值,獲得最終的判別結果。

4、應用實踐

4.1 到綜品類詞圖譜建設

美團到綜業務涵蓋知識領域較廣,包含親子、教育、醫美、休閒娛樂等,同時每一個領域都包含更多小的子領域,因此針對不一樣的領域建設領域內的知識圖譜,可以輔助作好搜索召回、篩選、推薦等業務。

在常識性概念圖譜中除了常識性概念數據,同時也包含美團場景數據,以及基礎算法能力的沉澱,所以能夠藉助常識性圖譜能力,幫助建設到綜品類詞的圖譜數據。

藉助常識性圖譜,補充欠缺的品類詞數據,構建合理的品類詞圖譜,幫助經過搜索改寫,POI打標等方式提高搜索召回。目前在教育領域,圖譜規模從起初的1000+節點擴展到2000+,同時同義詞從千級別擴展到2萬+,取得了不錯的效果。

品類詞圖譜建設流程以下圖所示:

圖19 到綜品類詞圖譜建設流程

4.2 點評搜索引導

點評搜索SUG推薦,在引導用戶認知的同時幫助減小用戶完成搜索的時間,提高搜索效率。因此在SUG推薦上須要聚焦兩個方面的目標:①幫助豐富用戶的認知,從對點評的POI、類目搜索增長天然文本搜索的認知;②精細化用戶搜索需求,當用戶在搜索一些比較泛的品類詞時,幫助細化用戶的搜索需求。

在常識性概念圖譜中,創建了很豐富的概念以及對應屬性及其屬性值的關係,經過一個相對比較泛的Query,能夠生成對應細化的Query。例如蛋糕,能夠經過口味這個屬性,產出草莓蛋糕、芝士蛋糕,經過規格這個屬性,產出6寸蛋糕、袖珍蛋糕等等。

搜索引導詞Query產出示例以下圖所示:

圖20 推薦Query挖掘示例

4.3 到綜醫美內容打標

在醫美內容展現上,用戶一般會對某一特定的醫美服務內容感興趣,因此在產品形態上會提供一些不一樣的服務標籤,幫助用戶篩選精確的醫美內容,精準觸達用戶需求。可是在標籤和醫美內容進行關聯時,關聯錯誤較多,用戶篩選後常常看到不符合本身需求的內容。提高打標的準確率可以幫助用戶更聚焦本身的需求。

藉助圖譜的概念-POI打標能力和概念-UGC的打標關係,提高標籤-內容的準確率。經過圖譜能力打標,在準確率和召回率上均有明顯提高。

  • 準確率:經過概念-內容打標算法,相比於關鍵詞匹配,準確率從51%提高到91%。
  • 召回率:經過概念同義挖掘,召回率從77%提高到91%。

圖21 醫美內容打標效果示例

5、總結與展望

咱們對常識性概念圖譜建設工做以及在美團場景中的使用狀況進行了詳細的介紹。在整個常識性概念圖譜中,按照業務須要包含三類節點和四類的關係,分別介紹了概念挖掘算法、不一樣種類的關係挖掘算法。

目前,咱們常識性概念圖譜有200萬+的概念,300萬+的概念之間的關係,包含上下位、同義、屬性、承接等關係,POI-概念的關係不包含在內。目前,總體關係準確率在90%左右,而且還在不斷優化算法,擴充關係的同時提高準確率。後續咱們的常識性概念圖譜還會繼續完善,但願可以作到精而全。

參考資料

  • [1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
  • [2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
  • [3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
  • [4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
  • [5] Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
  • [6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
  • [7] Malaviya, Chaitanya, et al. "Commonsense knowledge base completion with structural and semantic context." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
  • [8] 李涵昱, 錢力, 周鵬飛. "面向商品評論文本的情感分析與挖掘." 情報科學 35.1 (2017): 51-55.
  • [9] 閆波, 張也, 宿紅毅 等. 一種基於用戶評論的商品屬性聚類方法.
  • [10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. "Open relation extraction for chinese noun phrases." IEEE Transactions on Knowledge and Data Engineering (2019).
  • [11] Li, Feng-Lin, et al. "AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce." Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
  • [12] Yang, Yaosheng, et al. "Distantly supervised ner with partial annotation learning and reinforcement learning." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
  • [13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
  • [14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
  • [16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
  • [17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
  • [18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
  • [19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
  • [20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
  • [21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
  • [22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
  • [23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).

做者簡介

宗宇、俊傑、慧敏、福寶、徐俊、謝睿、武威等,均來自美團搜索與NLP部-NLP中心。

招聘信息

美團搜索與NLP部/NLP中心是負責美團人工智能技術研發的核心團隊,使命是打造世界一流的天然語言處理核心技術和服務能力,依託NLP(天然語言處理)、Deep Learning(深度學習)、Knowledge Graph(知識圖譜)等技術,處理美團海量文本數據,爲美團各項業務提供智能的文本語義理解服務。

NLP中心長期招聘天然語言處理算法專家/機器學習算法專家,感興趣的同窗能夠將簡歷發送至wangzongyu02@meituan.com

| 本文系美團技術團隊出品,著做權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明「內容轉載自美團技術團隊」。本文未經許可,不得進行商業性轉載或者使用。任何商用行爲,請發送郵件至tech@meituan.com申請受權。

閱讀美團技術團隊更多技術文章合集

前端 | 算法 | 後端 | 數據 | 安全 | 運維 | iOS | Android | 測試

| 在公衆號菜單欄對話框回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可查看美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著做權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明「內容轉載自美團技術團隊」。本文未經許可,不得進行商業性轉載或者使用。任何商用行爲,請發送郵件至tech@meituan.com申請受權。

相關文章
相關標籤/搜索