搜索相關性算法在 DiDi Food 中的搜索

導讀:今天給你們分享的主題是搜索匹配問題在 DiDi Food 中的一些探索與應用。本文首先介紹了搜索相關性的一些背景,以後介紹了業界常見的三種匹配模型,以及在DiDi Food業務中的模型效果對比。算法

匹配模型包括:1. 基於表徵的深度匹配模型;2. 基於交互的深度匹配模型;3. 同時基於表徵與交互的深度模型。文章最後會介紹目前搜索匹配算法在 DiDi Food 業務中的一些效果。微信

1. 搜索相關性

搜索相關性模型本質上是一個匹配的過程,即用戶經過一個具體請求,例如發送一個 query 來抽取想要獲得的信息。搜索引擎就是要將用戶的意圖與網站的信息作一個匹配來返回給用戶。具體到 DiDi Food 的業務場景中就是:用戶輸入 query 進行搜索後,搜索引擎將與用戶 query 匹配的店鋪、菜品返回給用戶。這個過程能夠抽象爲一個 query-doc 的語義間隔匹配問題。網絡

語義匹配

語義匹配與傳統的字符匹配同屬於傳統的 NLP 文本匹配任務,區別在於語義匹配不必定要求兩端文本上存在相同的單詞,更關注兩段文本在表達意思上是否知足目標任務。ide

這裏經過下表具體解釋二者的區別:函數


在通常的語義匹配算法中,訓練數據爲 label 好的 query-doc 關係組。目標函數爲 f(q,d)或 P(r|q,d),分別對應判別模型和生成模型。query 和 doc 通常經過對應的特徵向量或 one-hot-id。label 能夠是[0,1]這樣的離散值,也能夠是連續的數值得分。工具

Matching vs. Ranking

在通常的搜索與推薦任務中,目前業界主流的作法都是根據業務目標將其拆解爲匹配問題(不少稱爲召回問題)和排序問題。學習

在搜索中,匹配問題的目標一般是要解決 query-doc 的相關性,即 query-doc 的語義間隔問題。它的輸入每每是 query 和某一特定的 doc。Matching 的難點在於找到正確的匹配 case,剔除錯誤的匹配 case。測試

排序問題的目標一般是要解決列表序的問題。它的輸入每每是一系列的 doc。Ranking 的難點在於將正確或轉化率高的元素放到列表的頭部。網站

在 DiDi Food 的業務場景中也根據匹配與排序問題的不一樣分爲策略粗排與策略精排兩部分。ui

  1. 經過意圖模塊對用戶的意圖進行分析,其中包括 query 糾錯、同近義詞擴展等。

  2. broker 經過 ES 將店帶菜進行召回,策略對全部召回店帶菜作搜索粗排,這裏屬於匹配算法,目標找到相關性較高的店帶菜。

  3. 將粗排結果的 top N 個店帶菜作搜索精排,這裏屬於轉化率模型,目標提升用戶的下單轉化。

  4. 對店帶菜作搜索重排,這裏主要包括一些產品規則等,最後將結果透傳回 broker

2. 深度匹配算法#

相較於傳統的匹配算法,例如 TF-IDF, LSA, BM25 等,DiDi Food 在搜索場景中探索了業界主流的幾種深度模型。咱們把常見的用於匹配的深度學習模型分爲三類,包括:基於 representation 表徵的深度模型,基於interaction交互的深度模型以及同時基於表徵與交互的深度模型。

爲方便後文介紹,這裏先區別如下幾個概念:

1. Representation vs. Interaction

Match(T1, T2)=F(Φ(T1), Φ(T2))

  • Representation based
    學習文本的表徵,能夠提早把文本的語義向量計算好,在線預測時不用實時計算。在學習出文本向量前,二者沒有任何交互,可能致使細粒度匹配信號丟失。同時兩個文本的向量可能屬於不一樣的向量空間,須要經過上層的融合層和loss拉進兩個向量間的距離。
    F函數爲一個複雜的表徵函數,Φ是一個簡單的打分函數。

  • Interaction based
    經過局部交互矩陣保留有細粒度、精細化的匹配信號,上層使用更大粒度的pattern進行匹配信息提取,同時該類模型的可解釋性更好。缺點在於通常此類模型的在線計算代價更大。F函數爲一個簡單的映射函數,Φ是一個複雜的深度模型函數。

2. Similarity vs. Relevance

  • Simiarity:一般是判斷兩個同質的文本的語義、意思是否類似,其匹配函數是對稱的,表明任務有 NLP 的同義句識別。

  • Relevance:一般是判斷兩個不一樣質的文本(query 與 doc)是否相關,其匹配函數是不對稱的,表明任務有搜索網頁檢索。

3. Global vs. Local

  • Global Distribution:從全局匹配更偏向語義上的匹配
  • Local Context:從局部匹配更偏向字符上的匹配

4. Exact Term Matches vs. Inexact Term Matches vs. Term Position Matches

  • Exact Term Matches:傳統的 IR 模型(例如 BM25算法)是基於 query 和 doc 的精確匹配計數計算的,它們能夠在最少甚至沒有訓練數據的狀況下使用,能夠直接用於新任務或語料庫。

  • Inexact Term Matches:query 和 doc 之間的非精確匹配是指利用嵌入空間學習 term語義進行匹配的技術。

  • Term Position Matches:query 和 doc 中 term 的匹配位置不只反映文檔的潛在相關部分所在位置(例如標題、段首等),並且還反映了 query 各個 term 匹配彼此的聚合程度。

上方左圖說 case 爲當 query 爲 president of united states 時,exact term matches 和 inexact term matches 的匹配效果(綠色越深代表匹配程度越高);

上方右圖說明當 query term 在 doc 中的匹配位置較爲集中時相關性才高,當匹配位置相距較遠或較分散時說明匹配程度很低。

Representation Based Model##

基於表徵的深度匹配模型基本結構如圖所示,通常分爲兩步:

  • 計算 query 和 doc 的 representation

  • 對二者的 representation 進行 matching 計算

咱們以DSSM模型爲例。

輸入層

輸入層是把文本映射到一個向量空間裏並輸入到 DNN 中,這裏英文和中文的處理方式有很大不一樣。

英文的出入層處理方式是經過 word hashing 方式。一般是用 letter-trigrams 來切分單詞(3個字母爲一組,#表示開始和結束符)。

例如 boy 這個單詞,會被切爲 bo,boy,oy

word hashing 的好處有兩個:

  • 壓縮空間:50萬個單詞的 one-hot 向量空間能夠經過 letter-trigrams 壓縮爲一個3萬維的向量空間。

  • 加強泛化能力:三個字母的表達每每能表明英文中的前綴和後綴,而先後綴每每具備通用的語義。

除此以外,之因此選擇3個字母的切分粒度,是綜合考慮了向量空間和單詞衝突。

中文的分詞是 NLP 領域的難題,準確度每每難以知足要求。因此對於中文的處理方式是不作分詞處理,直接以單字做爲最小粒度。

經常使用單字數量爲1.5萬左右,而雙字的話大約到百萬級了,因此這裏出於向量空間的考慮,採用單字向量即(one-hot)做爲輸入,向量空間約1.5萬維左右。

表示層

DSSM 的表示層採用 BOW(bag of words)的方式,至關於把字向量的位置信息拋棄了,整個句子的詞都放在了一個袋子裏,不分前後順序。這樣作會損失必定信息,後續的 CNN-DSSM和LSTM-DSSM 能夠在必定程度上解決這個問題。緊接着是一個含有多個隱藏層的 DNN。

用 Wi 表示第i層的權值矩陣,用bi表示第i層的偏置項,則能夠獲得下面公式。

用 tanh 做爲隱藏層和輸出層的激活函數,最終輸出一個128維的低維語義向量。

匹配層

query 和 doc 的語義類似性能夠用這兩個語義向量(128維)的 cosine 距離,即餘弦類似度來表示。

經過 softmax 函數能夠把 query 與證樣本 doc 的語義類似性轉化爲一個後驗機率。

其中,γ 爲 softmax 的平滑因子。在訓練階段,經過極大似然估計,咱們最小化損失函數。

Interaction Based Model

基於交互的深度匹配模型基本結構如圖所示,通常分爲兩步:

  • 創建基本的底層匹配信號
  • 根據底層匹配信號提取匹配 pattern

咱們以 DRMM 模型爲例。

輸入層

query 和 doc 經過預訓練好的詞向量 q={w1, w2,...,wM},d={w1, w2,...,wN}做爲輸入。

其中每個 w 都是一個t維的詞向量。

局部交互矩陣-匹配直方圖


模型首先對 query 和 doc 每一個 term 對都創建了局部交互關係。傳統的局部交互矩陣存在一個重要問題,即 query 和 doc 的長度都是不定的,而模型須要轉換成固定長度。除此以外,局部匹配矩陣保留了位置表徵,這對於位置敏感的任務很是有效。但該模型認爲在搜索匹配問題中,更關注匹配信號的強度,因此該模型將其轉化爲匹配直方圖。

匹配直方圖將兩兩 term 的類似度根據分桶原理放入不一樣的桶中。例如 cosine 類似度的取值範圍在[-1, 1]之間,因此將 interval 離散化成有序的 bins,對每一個 bin 中的局部交互值數量進行累計。本文使用固定大小的 bins,將精確匹配的做爲單獨的 bin(即匹配分數爲1的)。

假設bin的大小爲0.5,那麼能夠獲得5個 bins,即{[-1, -0.5), [-0.5, -0), [0, 0.5), [0.5, 1), [1, 1]}升序排列。給定 query 爲 car 以及一個文檔(truck, injection, tent, bump, car, runway),對應的餘弦類似度分別爲(0.2, 0.3, -0.25, 0.4, 1.0, 0.75),能夠獲得匹配直方圖爲[0, 1, 3, 1, 1]。

模型嘗試了3種匹配直方圖映射的計數方式

  • 基於計數的直方圖 CH:最簡單的轉換方法,直接計算每一個 bin 中對應值的數量。
  • 歸一化直方圖 NH:對每一個bin中的計數值進行歸一化(基於總數量),關注不能交互值數量的相對大小。
  • 基於計數值對數的直方圖 LCH:對每一個 bin 中的計數值取對數,一樣是爲了壓縮取值範圍,讓模型能夠更容易學到乘性關係。

隱藏層

模型採用 DNN 做爲隱藏層而非與局部交互矩陣對應的 CNN,這樣避免了池化層對於一些細微信號的丟失。

term 門網絡

DRMM 採用了基於 query term 級別的聯合深度網絡,能夠清楚地建模每一個 query term 的重要性。這裏使用了 term 門網絡,計算每一個 query term 的聚合權重:

模型嘗試了兩種不一樣的輸入向量:

  • Term Vector (TF):xi(q)表示第 i 個詞的詞向量,wg 表示一樣維度的 term 門網絡權重向量。

  • 逆文檔頻率(IDF):IDF 是表徵單詞重要性的重要信號,這裏 xi(q)表示第 i 個單詞的 IDF,wg 即爲一個常數。

Representation & Interaction Based Model

此類模型融合了基於交互的匹配模型與基於表徵的匹配模型的優勢,分爲對應的 local model 和 distributed model 兩部分。distributed model 在匹配以前將 query 和 doc 文本投影到嵌入空間中;而 local model 在交互矩陣上操做,將每一個 query 與每一個 doc 進行比較。最終得分是來 local 得分和 distributed 網絡的得分之和。

輸入層

咱們固定全部 query 和 doc 的輸入長度,僅考慮 query 中的前10個term Q=[q1, q2, ..., q10]和 doc 中的前1000個term D=[d1, d2, ..., d1000]。若是 query 或 term 短於這些目標維度,則輸入向量用0填充。其中,q 和 d 都是 m × 1的向量。

query 中 term 數 nq;doc 中 term 數 nd。

Local model

Local Model 基於 query term 在 doc 中的精準匹配來衡量 doc 的相關性。每一個 term 表達爲 one-hot 的向量(m 維,m 爲詞典大小)。而後,模型生成局部交互矩陣 X=D^T × Q,大小爲 nd × nq,獲取 query term 在 doc 中的每一個精確匹配和位置信息。可是 X 不保留 term 自己的信息。所以,**Local Model 不能從訓練語料中學習 term 的特定屬性,也不能對不一樣 term 之間的交互進行建模。

X 首先通過卷積層,有 c 個 filters,其核大小爲 nd × 1(doc的term數),跨距爲1。

Zi,是 qi 與 doc 中的全部 term 進行匹配的函數的輸出。Xi 是局部交互矩陣 X 的第 i 行。W(nd × c 矩陣)是卷積層要學習的參數。Z 的維度爲 c × nq。模型使用 c=300的filters。卷積層的輸出而後經過兩個全鏈接層、drop-out 層、最終的全鏈接層,獲得一個單個的實數值。Local Model 中的全部節點都使用雙曲正切做爲激活函數進行非線性處理。

Distributed model

Distributed Model 學習 query 和 doc 文本的稠密低維向量表示,而後計算它們在嵌入空間中的類似性。不一樣於 Local Model 中對 term 進行 one-hot 編碼,Distributed Model 用了基於 trigram 的方式對每一個 term 進行表示,而後用 trigram 頻率矢量來表達這個 term(長度爲 md)。

在 distributed 部分中,不直接計算矩陣 Q(md × nq)和矩陣 D(md × nd)的交互,**而對這種基於字符的輸入先學習一系列的非線性轉換。

對於 query 和 doc,第一步是卷積,md × 3的卷積窗,filter size 爲300。它將3個連續 term 投影到一個300維向量,stride 爲1,再投影接下來的3個 term,依此類推。其中,對於 query,卷積層生成維數爲300 × 8的張量;對於 doc,它生成維度300 × 998。

接下來,是 max-pooling 層。對於 query,池化層的核維數爲1 × 8。對於 doc,維數爲1 × 100。所以,對於 query,獲得300 × 1的矩陣Q~。對於doc,獲得300 × 899的矩陣D。D能夠被解釋爲899個獨立的 embedding,每一個 embedding 對應於 doc 內不一樣的相等大小的文本跨度。該模型選擇基於窗口的最大池策略,而不是 CDSSM 採用的全局最大池策略,是由於基於窗口的方法容許模型區分 doc 不一樣部分中的匹配項。當處理長文檔,尤爲是包含許多不一樣主題的混合文檔時,保留匹配位置的模型可能更適用。

query 的最大池化層的輸出後續鏈接全鏈接層;對於 doc,300 × 899的維度矩陣輸出,由另外一卷積層運算(filter size 爲300、kernel size 爲300 × 一、stride 爲1)。**這些卷積層和最大池層的組合使得 distributed 模型可以學習文本的適當表示,以實現有效的非精確匹配。

爲了進行匹配,咱們對 embedded doc 和 query 進行 element-wise or Hadamard product。而後,咱們將此矩陣經過完鏈接層和 dropout 層,直到獲得一個分數。與 local 模型同樣,distributed 模型採用 tanh 函數進行非線性分析。

輸出層

DUET 模型將 local 部分與 distributed 部分的結果直接加和做爲最終相關性得分,這樣同時保留了 interaction 和 representation 部分的優點。

3. 模型效果分析

咱們找到一些在公開數據集上常見搜索相關性算法的指標做爲參考。

在 DiDi Food 業務中,咱們用 Guadalajara 城2月份的數據做爲訓練集,嘗試了 DSSM,CDSSM,DRMM 和 DUET 四種模型,獲得離線效果爲下表。

4. 團隊招聘

R lab 是滴滴17年末成立的一級部門,肩負不斷探索滴滴邊界孵化創新產品,R 意爲 Rebuild,咱們不創造用戶需求,而經過獨立思考,從第一性原理出發探究本質,重構一個個業務領域,創造新體驗替換舊體驗,爲用戶創造價值。目前主要業務爲 DiDi Food 國際外賣業務及國內探索業務。目前 DiDi Food 業務已經開國墨西哥、巴西、日本,爲當地用戶提供優質服務。國內探索業務也在持續進行。

目前部門業務快速發展,急需各種人才,算法,服務端,測試,客戶端,戰略,產品,運營等,歡迎有興趣的小夥伴加入。

投遞簡歷至hr郵箱:jasonlifei@didiglobal.com


做者介紹

李明陽:

滴滴出行,高級算法工程師。滴滴 R lab Strategy Tech 交易策略方向。從事搜索算法策略相關工做,負責搜索相關性排序,搜索少無結果推薦,熱詞推薦等項目。


歡迎關注滴滴技術公衆號!

本文由博客羣發一文多發等運營工具平臺 OpenWrite 發佈

相關文章
相關標籤/搜索