ESIM模型的「全能版」！網易易盾實驗室研究員解讀HIM混合推理模型

時間 2020-03-14

標籤 esim 模型全能網易實驗室研究員解讀混合推理简体版

原文原文鏈接

「知物由學」是網易易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，然後纔有智慧，不去求問就不會知道。「知物由學」但願經過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時，也但願打開你的眼界，成就不同的你。固然，若是你有不錯的認知或分享，也歡迎在「網易易盾」公衆號後臺投稿。算法

導讀：天然語言處理的ESIM模型目前已在多家公司的內容相關性搜索模型、人機對話模型上較爲普遍的使用，業內很多人對ESIM模型也耳熟能詳。實際上，ESIM模型只是本篇文章要介紹的HIM模型的閹割版，後者潛力很大，能應用在包括內容安全在內的多個領域。近日，網易易盾實驗室的研究員撰寫了此篇文章，對HIM模型進行簡單解讀。segmentfault

你們對天然語言處理的ESIM模型可能已經耳熟能詳，可是它實際上是這裏介紹的HIM模型的閹割版。安全

天然語言推理NLI（natrual language inferrence，NLI）一直是人工智能天然語言處理研究的一個熱門方向。但人類語言的推理也一直是一個極具挑戰的任務。舉個例子，文本蘊含關係描述的是兩個文本之間的推理關係，其中一個文本做爲前提（premise），另外一個文本做爲假設（hypothesis），若是根據前提P可以推理得出假設H，那麼就說P蘊含H，記作P→H。這跟一階邏輯中的蘊含關係是相似的。網絡

這裏解釋也許還有些抽象，在實際的應用中，前提句子能夠是用戶輸入的query查詢短語，假設句子能夠是新聞庫中一篇新聞的標題、正文、摘要，或者是網絡音樂曲庫庫中一首歌曲的介紹、歌詞。推理出來的關係，就是搜索查詢與搜索結果對象的相關性。架構

**在內容安全檢測應用中，前提句子亦能夠是一條待檢測的數據，假設句子就是舉報違禁樣本庫中一條樣本記錄，推理出來的關係，就是待檢測數據是否和違禁內容相關。
**
要完成天然語言的文本推理任務，最近stanford大學貢獻了一個重要的數據集——SNLI。這幫助廣大研究人員可以訓練更復雜的模型。使用這個數據訓練的序列推理模型可以獲得比以前已有的各類最早進的模型更優秀的模型。這也預示着，不少已有的序列推理算法的潛力都尚未挖掘出來。 函數

因爲句法和語義聯繫緊密，在天然語言推理任務中，挖掘句法對咱們十分的重要。所以在天然語言研究任務中，咱們須要把大部分的精力投入到利用循環神經網對句法分析樹信息進行編碼。在神經網絡中對局部推理和推理組合進行建模。學習

一、混合神經網絡推理模型編碼

在天然語言推理神經網絡中，有三個組成部分：輸入編碼、局部推理和推理組合。圖一展現的是這種結構的高層架構的三個重要組成部分。左邊展現的是序列推理模型ESIM，右邊展現是融合句法分析信息的樹形LSTM。人工智能

圖 1推理神經網絡模型的組成spa

首先咱們介紹輸入編碼的部分。

在輸入編碼的部分中，使用的是雙向LSTM（BILSTM）做爲天然語言推理的基本模塊。BILSTM用來對輸入的前提和假設進行如下的編碼：

在基本的LSTM單元中，LSTM使用一組soft門限開關和記憶單元來控制信息的傳遞，這種結構可以有效地跟蹤序列中長距離的信息和語法依賴關係。並且雙向LSTM從句子序列的最左端和最右端進行了前向和後向的計算，兩個方向計算所得的隱層向量在每一個時刻點鏈接起來，在效果上比其餘的遞歸記憶模塊（好比GRU單元）來的好。

爲了有效分析天然語言推理中句法結構，在推理中，咱們使用瞭如圖2所示的樹形LSTM。經過樹形LSTM，咱們把前提和假設兩個句子的句法分析樹的信息編碼起來。

圖 2樹形LSTM

根據如下（3）-（10）的計算，句法分析樹中的每一個節點使用如圖2所示的tree-LSTM的記憶單元進行計算。每一個節點中，輸入向量

和這個節點的兩個子節點的隱藏向量

，

做爲輸入信息進行計算，獲得當前節點的隱藏向量

。一個節點的輸入用來設置4個門限開關的閾值：輸入門，輸出門，兩個遺忘門。並且記憶單元

的門閥閾值也由左遺忘門和右遺忘門的閾值計算獲得。在當前的輸入編碼層中，輸入

是葉子節點的詞嵌入編碼向量，而非葉子節點因爲沒有對應的具體的詞語，咱們使用一個特殊的向量

做爲輸入。

相似於未登陸詞所對用的詞嵌入向量。

值得一提的是，這與下面咱們要介紹的推理組合層有很大的不一樣。在推理組合層中，樹形LSTM使用的輸入信息是局部推理信息的編碼，並且在樹裏面的全部節點上都是有具體對應的，也就是說在推理組合層中，不須要用未登陸詞向量的手段來解決問題。

2.局部推理建模

對前提句子和假設句子進行子句子級別的局部推理建模是決定整個推理的重要環節。爲了更仔細地進行局部推理，咱們對序列和句法樹模型繼續作更進一步地挖掘。其中序列模型對詞和詞的上下文進行局部推理相關信息的收集；樹形LSTM進行對詞組和從句級別的局部信息收集。
這裏的局部信息推理模型涉及到對前提句子/假設句子相互之間各個句子子部分的硬對齊操做和軟對齊操做。這種對齊操做和傳統自動機器翻譯中的對齊方法很相近。具體的實現過程，能夠經過計算soft的注意力分數實現。
前人的工做將這種操做分解成一下過程：
前提句子或者是假設句子的序列轉化成詞嵌入向量的詞袋。前提句子內的每一個詞各自與假設句子中的每一個詞計算獲得的注意力分數做爲soft對齊的關聯程度。值得注意的是，這種基本作法儘管有效而且是目前可以取得最好結果的作法，可是使用預訓練的詞嵌入向量自己忽視了NLI任務中詞語的上下文信息。
這裏的軟對齊操做是使用一下計算公式的注意力權重計算。

它是前提句子序列和假設句子序列的隱狀態之間的類似度計算。這是經過屢次實驗獲得的，使用更復雜的關係計算方式，並不能獲得更好的效果提高。這裏公式中的計算對象，是前面BILSTM計算獲得的隱狀態向量，也能夠是樹形LSTM計算獲得的隱狀態向量

。

序列上的局部推理信息

局部推理主要是由注意力權重

決定的，它表明了前提句子和假設句子的局部相關性。舉個例子，前提句子某個詞語的隱狀態向量

，它已經包含了詞語自己和詞語上下文的信息，並且在假設語句中和它相關的語義信息經過

進行識別和組合。好比，兩個句子間的相互關聯和組合表達，能夠經過如下方式：

假設語句中內容

會經過與

的相關性進行選擇和參與加權表示。
句法分析樹上的局部推理信息
這裏所討論的句法分析樹是成分句法分析樹（constituency parser.），而不是依存句法分析樹（Dependency Parsing）。成分句法分析樹用來收集詞組和從句的局部推理信息。當分析樹中的每一個節點的隱狀態都計算好了以後，這些分析樹中的節點都是沒有區別的，惟一要作的就是使用注意力分值來分析它們之間的關係。咱們仍是使用

來計算前提句子和假設句子的全部節點配對之間的注意力權重。這種作法把前提句子、假設句子中含有的全部的詞語、成分詞組和從句都聯繫起來了。咱們計算獲得這種關係信息，並把它們傳遞到接下來的神經網絡層。
加強局部推理信息
咱們進一步加強局部信息收集。咱們計算隱狀態向量兩兩之間的差值向量和元素點積結果向量。這種操做可以幫助得到局部推理過程當中比較突出和明顯的特徵信息，或者得到一些相似矛盾關係的推理信息。差別向量和元素點積結果向量經過和原始的隱狀態向量鏈接起來，獲得加強後的特徵。

這種隱狀態的加強操做，對句子序列BILSTM模型和樹形LSTM模型的隱狀態向量都進行操做。這種操做是一種對序列特徵進行抽取高階交互特徵的方法。然而，根據實驗的嘗試，咱們也發現對這種高階的交互特徵進行進一步的前向神經網絡的計算，增長頂層隱狀態向量到前面咱們討論的特徵鏈接的結果向量上，並不會獲得更好的效果。

3.推理組合
在推理組合環節中，咱們將最終肯定前提句子和假設句子的全局關係。在組合層咱們對加強版的局部推理信息

和

進行組合。咱們進行句子序列的組合或者進行上下文句法分析樹形的組合。
在句子序列的推理模型中，一樣也使用BILSTM模型進行組合推理信息

和

，計算方式和前面提到的輸入編碼的操做相同，可是目的不同。這裏的主要目的是得到局部推理信息和以及上下文信息進行組合。

在樹形組合過程當中，每一個樹上的節點的高層次計算主要是進行組合局部推理信息。

在這種組合過程當中，因爲向量的鏈接操做，會使得BILSTM、樹形LSTM模型的輸入維度翻倍的增長，致使模型參數的成倍增長。衆所周知，這種參數的成倍增長很容易致使模型潛在的過擬合。爲了不這種過擬合的後果，在模型中須要對輸入增長一層帶ReLU激活函數的前向神經網絡。
推理的最後是經過池化技術將推理組合獲得的結果向量轉化成一個固定長度向量，而且輸入到最終的分類器中來決定最終的全局推理關係。前人的一些向量求和池化方法都對序列長度很敏感而且欠缺魯棒性。咱們使用新的策略：同時計算平均池化和最大值池化，把結果串聯鏈接成一個最終的固定長度的向量。具體的計算方式以下：

這種方法經過屢次實驗比較，顯示可以比求和池化的結果有明顯的提高。在樹形推理組合中，最後一步向量的串聯鏈接稍微有所不一樣。樹形組合須要將根節點隱狀態向量鏈接起來。
在最後的分類環節中，模型把獲得

的輸入到最後的多層感知器MLP分類器中。MLP有一個tanh激活函數和一個softmax輸出層。帶有輸入編碼、局部推理和推理組合三個模塊的整個模型，本質上仍是一個端到端訓練的模型，訓練的損失函數也採用多分類交叉熵的損失函數。
這裏介紹的模型，當只保留對序列句子的推理，捨棄句法分析樹相關的分析推理組件，這時候模型就是加強化的序列推理模型ESIM。ESIM在競賽中已經取得了很不錯的結果。當考慮句法分析樹的信息，經過多層次的樹形LSTM編碼，把這部分的信息和ESIM模型的信息結合起來，好比使用取預測機率的平均值獲得句子配對的最終關係標籤，這就是混合推理模型HIM。經過實驗的驗證，融合句法分析的信息的HIM可以比ESIM模型進一步提高推理的效果（文/易盾實驗室）。

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。