深度強化學習在指代消解中的一種嘗試

本文出自斯坦福 NLP 組,發表在 EMNLP 2016,其將深度強化學習應用於指代消解領域是一大創新,相較於其餘方法有很好的效果提高。算法

指代消解是天然語言處理的一大研究領域,常見的指代消解算法多數模型採用啓發式損失函數,不一樣消解任務爲達到良好的使用效果須要對調整損失函數超參數。網絡

常見的指代消解算法有 Mention Pair、Mention Rank、Entity Mention 等等,本文將深度強化學習應用於 Mention Rank 實現消解技術的通用性,解決啓發式損失函數的超參微調問題。函數

模型介紹學習

論文做者將其發表於 ACL 2016 的 Neural Mention-ranking 模型 [1] 進行強化學習的改進。測試

模型結構優化

以下圖所示,Neural Mention-ranking 模型結構主體部分爲多層的前反饋神經網絡,分爲三個部分:首先是輸入層將指代詞(mention)特徵、候選前指詞(Candidate Antecedent)即指代詞出現前的詞特徵、指導詞所在句子特徵以及其餘特徵例如距離特徵、鏈接關係特徵等等作向量拼接(concate)處理做爲模型的輸入 h0。spa

4c1a386a6a2d474b4b03b12744b3b10722489a59

特徵的獲取過程不是本論文的重點,這裏不詳細闡述,對特徵如何獲取感興趣能夠參考 [1]。3d

隱藏層採用 Relu 做爲激活函數,其中隱藏層共 3 層,其公式定義以下:代理

72fca104b7d8579e3bdd01c7caf6ab9d36bf61ca

分數獲取層,其採用基本的線性相乘法,公式定義以下:blog

e41ac01e01d029e5da0b3da53554baa7feda3988

啓發式損失函數

Neural Mention-ranking 模型結構採用一種啓發式 Max-Margin 損失函數,Max-Margin 即 Hinge Loss 的一種變種。 首先,先看鬆弛參數 △h 的定義。

01dc70296bc8c07de2a0d3e7862175a1c21686d1

其中 C(mi) 表示預測的候選前指詞庫,T(mi) 表示真實的前指詞庫,c∈C(mi),NA 表示爲空,FN、FA、WL 依次表示「不爲空」、「錯誤的前指」、「錯誤鏈接」。 損失函數定義以下,該函數目的是讓真實的前指詞「分數」更高,錯分狀況「分數」隨着訓練不斷下降。

b2433ffb85bcf6eabff2df3b56b5b707397c9205

其中 ti 表示預測候選詞中真實前指詞的最高「分」(Score),定義以下。

11f3e4a8a228f1da4245c0ad441bcbfc65fe101f

參數 ɑ 的定義採用人工微調的方式,不斷嘗試,最終肯定最優值。

強化學習對損失函數的改進

論文采用兩種強化學習方式改進,一種對超參數的改進,採用強化學習的獎勵機制,另外一種採用經典的加強策略梯度算法。

論文中將 Neural Mention-ranking 模型當作代理(agent),而每一個行爲 ai 表示第 i 個指代詞的其中一個前指詞。Ai 表示第 i 步中全部的候選行爲集合即全部第 i 個指代詞的全部候選詞集合。獎勵函數 R(a1:T) 表示第 1 個行動到最後行動的獎勵,用 B-cubed 函數 [2] 表示。

1. 獎勵衡量機制

這種方式將上述啓發式損失函數的鬆弛參數 △ 進行改進,因爲沒個行爲都是沒有關聯性、獨立的,所以能夠經過嘗試不一樣的行爲判斷每一步獎勵差別。所以鬆弛參數變化以下所示。

215732c00c2c1a950dba7bc5169f5f6ab9c6388d

這種機制的訓練方式和啓發式損失函數一致。

2. 經典強化學習方式

除上述獎勵衡量機制外,採用經典的加強策略梯度算法,每一個行爲 a=(c,m) 的機率定義以下。

dacfecfad12aeed4b88174ae3a6a47023074644f

損失函數定義以下:

23a543cab3a147ead6c089fba9f1ea610f5f60b3

爲使得到獎勵值最大,採用梯度上升法進行參數更新,因爲每一次行爲選擇隨着句子的增加指數級增加,所以梯度值計算困難。論文采用一種梯度估值,定義以下所示。

c3c75a846bfcb70a283cb95fc6cbab699c90b413

模型實驗效果

經過對 CoNLL2012 的英文和中文的指代數據實驗,獲得測試結果以下圖所示,獎勵衡量機制效果明顯,表現最佳

722348205281023c86e9bbdac1ff2818782a4826

論文評價

這篇論文發表於 2016 年的 EMNLP,嘗試對指代消解的一種神經網絡 Mention Rank 模型的啓發式損失函數中的超參數利用強化學習方式進行優化,提出一種獎勵衡量機制,跟其餘方式比效果突出。

這種基於強化學習的獎勵衡量機制的超參數調節方式會對不少研究工做產生啓發,特別是對超參設置採用嘗試性遍歷方式的研究工做。惋惜論文發表到如今兩年時間,在指代消解中利用強化學習的方式沒有更好的新的嘗試。

 

原文發佈時間爲:2018-05-17

本文做者:姜鬆浩

 

本文來自雲棲社區合做夥伴「PaperWeekly」,瞭解相關信息能夠關注「PaperWeekly」。

相關文章
相關標籤/搜索