本文出自斯坦福 NLP 組,發表在 EMNLP 2016,其將深度強化學習應用於指代消解領域是一大創新,相較於其餘方法有很好的效果提高。算法
指代消解是天然語言處理的一大研究領域,常見的指代消解算法多數模型採用啓發式損失函數,不一樣消解任務爲達到良好的使用效果須要對調整損失函數超參數。網絡
模型介紹學習
論文做者將其發表於 ACL 2016 的 Neural Mention-ranking 模型 [1] 進行強化學習的改進。測試
模型結構優化
特徵的獲取過程不是本論文的重點,這裏不詳細闡述,對特徵如何獲取感興趣能夠參考 [1]。3d
隱藏層採用 Relu 做爲激活函數,其中隱藏層共 3 層,其公式定義以下:代理
Neural Mention-ranking 模型結構採用一種啓發式 Max-Margin 損失函數,Max-Margin 即 Hinge Loss 的一種變種。 首先,先看鬆弛參數 △h 的定義。
其中 ti 表示預測候選詞中真實前指詞的最高「分」(Score),定義以下。
參數 ɑ 的定義採用人工微調的方式,不斷嘗試,最終肯定最優值。
論文采用兩種強化學習方式改進,一種對超參數的改進,採用強化學習的獎勵機制,另外一種採用經典的加強策略梯度算法。
這種方式將上述啓發式損失函數的鬆弛參數 △ 進行改進,因爲沒個行爲都是沒有關聯性、獨立的,所以能夠經過嘗試不一樣的行爲判斷每一步獎勵差別。所以鬆弛參數變化以下所示。
除上述獎勵衡量機制外,採用經典的加強策略梯度算法,每一個行爲 a=(c,m) 的機率定義以下。
爲使得到獎勵值最大,採用梯度上升法進行參數更新,因爲每一次行爲選擇隨着句子的增加指數級增加,所以梯度值計算困難。論文采用一種梯度估值,定義以下所示。
經過對 CoNLL2012 的英文和中文的指代數據實驗,獲得測試結果以下圖所示,獎勵衡量機制效果明顯,表現最佳
這篇論文發表於 2016 年的 EMNLP,嘗試對指代消解的一種神經網絡 Mention Rank 模型的啓發式損失函數中的超參數利用強化學習方式進行優化,提出一種獎勵衡量機制,跟其餘方式比效果突出。
這種基於強化學習的獎勵衡量機制的超參數調節方式會對不少研究工做產生啓發,特別是對超參設置採用嘗試性遍歷方式的研究工做。惋惜論文發表到如今兩年時間,在指代消解中利用強化學習的方式沒有更好的新的嘗試。