深度學習解決NLP問題：語義類似度計算

時間 2019-11-21

標籤深度學習解決 nlp 問題語義類似計算简体版

原文原文鏈接

在NLP領域，語義類似度的計算一直是個難題：搜索場景下query和Doc的語義類似度、feeds場景下Doc和Doc的語義類似度、機器翻譯場景下A句子和B句子的語義類似度等等。本文經過介紹DSSM、CNN-DSSM、LSTM-DSSM等深度學習模型在計算語義類似度上的應用，但願給讀者帶來幫助。網絡

1. 背景

以搜索引擎和搜索廣告爲例，最重要的也最難解決的問題是語義類似度，這裏主要體如今兩個方面：召回和排序。函數

在召回時，傳統的文本類似性如 BM25，沒法有效發現語義類 query-Doc 結果對，如"從北京到上海的機票"與"攜程網"的類似性、"快遞軟件"與"菜鳥裹裹"的類似性。學習

在排序時，一些細微的語言變化每每帶來巨大的語義變化，如"小寶寶生病怎麼辦"和"狗寶寶生病怎麼辦"、"深度學習"和"學習深度"。搜索引擎

DSSM（Deep Structured Semantic Models）爲計算語義類似度提供了一種思路。翻譯

本文的最後，筆者結合自身業務，對 DSSM 的使用場景作了一些總結，不是全部的業務都適合用 DSSM。3d

2. DSSM

DSSM [1]（Deep Structured Semantic Models）的原理很簡單，經過搜索引擎裏 Query 和 Title 的海量的點擊曝光日誌，用 DNN 把 Query 和 Title 表達爲低緯語義向量，並經過 cosine 距離來計算兩個語義向量的距離，最終訓練出語義類似度模型。該模型既能夠用來預測兩個句子的語義類似度，又能夠得到某句子的低緯語義向量表達。日誌

DSSM 從下往上能夠分爲三層結構：輸入層、表示層、匹配層code

2.1 輸入層

輸入層作的事情是把句子映射到一個向量空間裏並輸入到 DNN 中，這裏英文和中文的處理方式有很大的不一樣。blog

（1）英文排序

英文的輸入層處理方式是經過word hashing。舉個例子，假設用 letter-trigams 來切分單詞（3 個字母爲一組，#表示開始和結束符），boy 這個單詞會被切爲 #-b-o, b-o-y, o-y-#

這樣作的好處有兩個：首先是壓縮空間，50 萬個詞的 one-hot 向量空間能夠經過 letter-trigram 壓縮爲一個 3 萬維的向量空間。其次是加強範化能力，三個字母的表達每每能表明英文中的前綴和後綴，而前綴後綴每每具備通用的語義。

這裏之因此用 3 個字母的切分粒度，是綜合考慮了向量空間和單詞衝突：

以 50 萬個單詞的詞庫爲例，2 個字母的切分粒度的單詞衝突爲 1192（衝突的定義：至少有兩個單詞的 letter-bigram 向量徹底相同），而 3 個字母的單詞衝突降爲 22 效果很好，且轉化後的向量空間 3 萬維不是很大，綜合考慮選擇 3 個字母的切分粒度。

（2）中文

中文的輸入層處理方式與英文有很大不一樣，首先中文分詞是個讓全部 NLP 從業者頭疼的事情，即使業界號稱能作到 95%左右的分詞準確性，但分詞結果極爲不可控，每每會在分詞階段引入偏差。因此這裏咱們不分詞，而是仿照英文的處理方式，對應到中文的最小粒度就是單字了。（曾經有人用偏旁部首切的，感興趣的朋友能夠試試）

因爲經常使用的單字爲 1.5 萬左右，而經常使用的雙字大約到百萬級別了，因此這裏出於向量空間的考慮，採用字向量（one-hot）做爲輸入，向量空間約爲 1.5 萬維。

2.2 表示層

DSSM 的表示層採用 BOW（Bag of words）的方式，至關於把字向量的位置信息拋棄了，整個句子裏的詞都放在一個袋子裏了，不分前後順序。固然這樣作會有問題，咱們先爲 CNN-DSSM 和 LSTM-DSSM 埋下一個伏筆。

緊接着是一個含有多個隱層的 DNN，以下圖所示：

用 W_i 表示第 i 層的權值矩陣，b_i 表示第 i 層的 bias 項。則第一隱層向量 l₁（300 維），第 i 個隱層向量 l_i（300 維），輸出向量 y（128 維）能夠分別表示爲：

用 tanh 做爲隱層和輸出層的激活函數：

最終輸出一個 128 維的低緯語義向量。

2.3 匹配層

Query 和 Doc 的語義類似性能夠用這兩個語義向量(128 維) 的 cosine 距離來表示：

經過softmax 函數能夠把Query 與正樣本 Doc 的語義類似性轉化爲一個後驗機率：

其中 r 爲 softmax 的平滑因子，D 爲 Query 下的正樣本，D-爲 Query 下的負樣本（採起隨機負採樣），D 爲 Query 下的整個樣本空間。

在訓練階段，經過極大似然估計，咱們最小化損失函數：

殘差會在表示層的 DNN 中反向傳播，最終經過隨機梯度降低（SGD）使模型收斂，獲得各網絡層的參數{W_i,b_i}。

2.4 優缺點

優勢：DSSM 用字向量做爲輸入既能夠減小切詞的依賴，又能夠提升模型的範化能力，由於每一個漢字所能表達的語義是能夠複用的。另外一方面，傳統的輸入層是用 Embedding 的方式（如 Word2Vec 的詞向量）或者主題模型的方式（如 LDA 的主題向量）來直接作詞的映射，再把各個詞的向量累加或者拼接起來，因爲 Word2Vec 和 LDA 都是無監督的訓練，這樣會給整個模型引入偏差，DSSM 採用統一的有監督訓練，不須要在中間過程作無監督模型的映射，所以精準度會比較高。

缺點：上文提到 DSSM 採用詞袋模型（BOW），所以喪失了語序信息和上下文信息。另外一方面，DSSM 採用弱監督、端到端的模型，預測結果不可控。

3. CNN-DSSM

針對 DSSM 詞袋模型丟失上下文信息的缺點，CLSM[2]（convolutional latent semantic model）應運而生，又叫 CNN-DSSM。CNN-DSSM 與 DSSM 的區別主要在於輸入層和表示層。

3.1 輸入層

（1）英文

英文的處理方式，除了上文提到的 letter-trigram，CNN-DSSM 還在輸入層增長了word-trigram

如上圖所示，word-trigram其實就是一個包含了上下文信息的滑動窗口。舉個例子：把<s> online auto body ... <s>這句話提取出前三個詞<s> online auto，以後再分別對這三個詞進行letter-trigram映射到一個 3 萬維的向量空間裏，而後把三個向量 concat 起來，最終映射到一個 9 萬維的向量空間裏。

（2）中文

英文的處理方式（word-trigram letter-trigram）在中文中並不可取，由於英文中雖然用了 word-ngram 把樣本空間拉成了百萬級，可是通過 letter-trigram 又把向量空間降到可控級別，只有 3*30K（9 萬）。而中文若是用 word-trigram，那向量空間就是百萬級的了，顯然仍是字向量（1.5 萬維）比較可控。

3.2 表示層

CNN-DSSM 的表示層由一個卷積神經網絡組成，以下圖所示：

（1）卷積層——Convolutional layer

卷積層的做用是提取滑動窗口下的上下文特徵。如下圖爲例，假設輸入層是一個 302*90000（302 行，9 萬列）的矩陣，表明 302 個字向量（query 的和 Doc 的長度通常小於 300，這裏少了就補全，多了就截斷），每一個字向量有 9 萬維。而卷積核是一個 3*90000 的權值矩陣，卷積核以步長爲 1 向下移動，獲得的 feature map 是一個 300*1 的矩陣，feature map 的計算公式是(輸入層維數 302-卷積核大小 3 步長 1)/步長 1=300。而這樣的卷積核有 300 個，因此造成了 300 個 300*1 的 feature map 矩陣。

（2）池化層——Max pooling layer

池化層的做用是爲句子找到全局的上下文特徵。池化層以 Max-over-time pooling 的方式，每一個 feature map 都取最大值，獲得一個 300 維的向量。Max-over-pooling 能夠解決可變長度的句子輸入問題（由於無論 Feature Map 中有多少個值，只須要提取其中的最大值）。不過咱們在上一步已經作了句子的定長處理（固定句子長度爲 302），因此就沒有可變長度句子的問題。最終池化層的輸出爲各個 Feature Map 的最大值，即一個 300*1 的向量。這裏多提一句，之因此 Max pooling 層要保持固定的輸出維度，是由於下一層全連接層要求有固定的輸入層數，才能進行訓練。

（3）全鏈接層——Semantic layer

最後經過全鏈接層把一個 300 維的向量轉化爲一個 128 維的低維語義向量。全鏈接層採用 tanh 函數：

3.3 匹配層

CNN-DSSM 的匹配層和 DSSM 的同樣，這裏省略。

3.4 優缺點

優勢：CNN-DSSM 經過卷積層提取了滑動窗口下的上下文信息，又經過池化層提取了全局的上下文信息，上下文信息獲得較爲有效的保留。

缺點：對於間隔較遠的上下文信息，難以有效保留。舉個例子，I grew up in France... I speak fluent French，顯然 France 和 French 是具備上下文依賴關係的，可是因爲 CNN-DSSM 滑動窗口（卷積核）大小的限制，致使沒法捕獲該上下文信息。

4. LSTM-DSSM

針對 CNN-DSSM 沒法捕獲較遠距離上下文特徵的缺點，有人提出了用LSTM-DSSM[3]（Long-Short-Term Memory）來解決該問題。不過說 LSTM 以前，要先介紹它的"爸爸""RNN。

4.1 RNN

RNN（Recurrent Neural Networks）能夠被看作是同一神經網絡的屢次複製，每一個神經網絡模塊會把消息傳遞給下一個。若是咱們將這個循環展開：

假設輸入 xi 爲一個 query 中幾個連續的詞，hi 爲輸出。那麼上一個神經元的輸出 h(t-1) 與當前細胞的輸入 Xt 拼接後通過 tanh 函數會輸出 ht，同時把 ht 傳遞給下一個細胞。

不幸的是，在這個間隔不斷增大時，RNN 會逐漸喪失學習到遠距離信息的能力。由於 RNN 隨着距離的加長，會致使梯度消失。簡單來講，因爲求導的鏈式法則，直接致使梯度被表示爲連乘的形式，以致梯度消失（幾個小於 1 的數相乘會逐漸趨向於 0）。

4.2 LSTM

LSTM[4](（Long-Short-Term Memory）是一種 RNN 特殊的類型，能夠學習長期依賴信息。咱們分別來介紹它最重要的幾個模塊：

（0）細胞狀態

細胞狀態這條線能夠理解成是一條信息的傳送帶，只有一些少許的線性交互。在上面流動能夠保持信息的不變性。

（1）遺忘門

遺忘門 [5]由 Gers 提出，它用來控制細胞狀態 cell 有哪些信息能夠經過，繼續往下傳遞。以下圖所示，上一層的輸出 h(t-1) concat 上本層的輸入 xt，通過一個 sigmoid 網絡（遺忘門）產生一個從 0 到 1 的數值 ft，而後與細胞狀態 C(t-1) 相乘，最終決定有多少細胞狀態能夠繼續日後傳遞。

（2）輸入門

輸入門決定要新增什麼信息到細胞狀態，這裏包含兩部分：一個 sigmoid 輸入門和一個 tanh 函數。sigmoid 決定輸入的信號控制，tanh 決定輸入什麼內容。以下圖所示，上一層的輸出 h(t-1) concat 上本層的輸入 xt，通過一個 sigmoid 網絡（輸入門）產生一個從 0 到 1 的數值 it，一樣的信息通過 tanh 網絡作非線性變換獲得結果 Ct，sigmoid 的結果和 tanh 的結果相乘，最終決定有哪些信息能夠輸入到細胞狀態裏。

（3）輸出門

輸出門決定從細胞狀態要輸出什麼信息，這裏也包含兩部分：一個 sigmoid 輸出門和一個 tanh 函數。sigmoid 決定輸出的信號控制，tanh 決定輸出什麼內容。以下圖所示，上一層的輸出 h(t-1) concat 上本層的輸入 xt，通過一個 sigmoid 網絡（輸出門）產生一個從 0 到 1 的數值 Ot，細胞狀態 Ct 通過 tanh 網絡作非線性變換，獲得結果再與 sigmoid 的結果 Ot 相乘，最終決定有哪些信息能夠輸出，輸出的結果 ht 會做爲這個細胞的輸出，也會做爲傳遞個下一個細胞。

4.2 LSTM-DSSM

LSTM-DSSM 其實用的是 LSTM 的一個變種——加入了peephole[6]的 LSTM。以下圖所示：

看起來有點複雜，咱們換一個圖，讀者能夠看的更清晰：

這裏三條黑線就是所謂的 peephole，傳統的 LSTM 中遺忘門、輸入門和輸出門只用了 h(t-1) 和 xt 來控制門縫的大小，peephole 的意思是說不但要考慮 h(t-1) 和 xt，也要考慮 Ct-1 和 Ct，其中遺忘門和輸入門考慮了 Ct-1，而輸出門考慮了 Ct。整體來講須要考慮的信息更豐富了。

好了，來看一個 LSTM-DSSM 總體的網絡結構：

紅色的部分能夠清晰的看到殘差傳遞的方向。

5. 後記

介紹完了 DSSM 及其幾個變種，還要給讀者潑點冷水，DSSM 就必定適合全部的業務嗎？

這裏列出 DSSM 的 2 個缺點以供參考：

1. DSSM 是端到端的模型，雖然省去了人工特徵轉化、特徵工程和特徵組合，但端到端的模型有個問題就是效果不可控。對於一些要保證較高的準確率的場景，用有監督人工標註的 query 分類做爲打底，再結合無監督的 word2vec、LDA 等進行語義特徵的向量化，顯然比較可控（至少 query 分類的準確率能夠達到 95%以上）。

2. DSSM 是弱監督模型，由於引擎的點擊曝光日誌裏 Query 和 Title 的語義信息比較弱。舉個例子，搜索引擎第一頁的信息每每都是 Query 的包含匹配，筆者統計過，徹底的語義匹配只有不到 2%。這就意味着幾乎全部的標題裏都包含用戶 Query 裏的關鍵詞，而僅用點擊和曝光就能做爲正負樣例的判斷？顯然不太靠譜，由於大部分的用戶進行點擊時越靠前的點擊的機率越大，而引擎的排序又是由 pCTR、CVR、CPC 等多種因素決定的。從這種很是弱的信號裏提取出語義的類似性或者差異，那就須要有海量的訓練樣本。DSSM 論文中提到，實驗的訓練樣本超過 1 億。筆者和同事也親測過，用傳統 CTR 預估模型千萬級的樣本量來訓練，模型沒法收斂。但是這樣海量的訓練樣本，恐怕只有搜索引擎纔有吧？普通的搜索業務 query 有上千萬，可資源頂多只有幾百萬，像論文中說須要挑出點擊和曝光置信度比較高且資源熱度也比較高的做爲訓練樣本，這樣就過濾了 80%的長尾 query 和 Title 結果對，因此也只有搜索引擎纔有這樣的訓練語料了吧。另外一方面，超過 1 億的訓練樣本做爲輸入，用深度學習模型作訓練，須要大型的 GPU 集羣，這個對於不少業務來講也是不具有的條件。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。