神經機器翻譯推斷階段信心校準研究

本論文由騰訊 AI Lab 和清華大學合做完成，做者提出了一種評估神經機器翻譯模型在推斷場景下信心校準誤差的方法，並發現Transformer模型的信心儘管在訓練場景中校準較好，可是在推斷場景中仍然存在較大的校準誤差。如下爲論文的詳細解讀。安全

On the Inference Calibration of Neural Machine Translation併發

基於機率的機器學習模型在給出預測結果的同時，每每會輸出一個對應的信心指數(i.e., confidence)，該信心指數能夠表明模型對自身預測結果的正確性的一個估計。在金融、醫療等安全等級較高的場景中，咱們但願模型不但有較好的預測精度(i.e., accuracy)，而且可以作到「知之爲知之，不知爲不知」，對預測結果的正確性有準確的估計。機器學習

咱們能夠設想一個場景：在一個共同抗擊疫情的各國聯合醫療隊中，各國醫護人員可使用機器翻譯系統進行交流。在涉及患者病情的關鍵性描述中，咱們要求機器翻譯系統要如實反映其對翻譯結果的信心。對於模型不自信的翻譯結果，咱們能夠請語言專家有針對性的進行後處理，對於大部分模型自信的結果，咱們能夠直接使用。因而可知，對自身輸出結果是否有一個準確的信心估計，是衡量機器翻譯模型可否實際部署的重要性質。ide

量化模型對預測結果信心校準誤差的前人工做大可能是在分類任務上開展的。可是，不一樣於分類任務的單一輸出，包括機器翻譯在內的生成式天然語言任務的輸出都是序列化的，而且每每具備潛在的語義結構。如何評估序列化生成模型的信心校準誤差依然是一個還沒有解決的問題。學習

在本文中，咱們對指望校準誤差(Expected Calibration Error, ECE)進行了擴展，使其可以應用到序列化生成任務中來。具體地，ECE在計算方式以下：測試

咱們首先將模型在測試集中全部預測的token分爲M組，分組的標準是每一個token對應的信心指數（具體地，咱們使用模型的翻譯機率做爲信心指數），信心指數相近的token會被分到同一組。在每一組中咱們計算全部token的平均準確率和平均信心指數。對全部組的平均準確率與平均信心指數的誤差進行加權平均，將會獲得最終的ECE結果。編碼

爲了計算ECE，一個關鍵是如何量化每一個token的準確性。爲此，咱們使用TER方法在模型譯文和參考譯文之間創建一個對應關係，並根據TER的標註決定每一個token的正確性：spa

至此，咱們就可使用ECE量化序列化生成模型在推斷場景下的信心校準誤差了。翻譯

在實驗中，咱們比較了機器翻譯模型分別在訓練與推斷場景下信心校準誤差的狀況：設計

能夠看到模型在推斷階段的ECE遠遠高於在訓練階段的ECE (15.83 > 1.39)，說明推斷階段的信心校準誤差對目前的機器翻譯模型來講仍然是一個問題。爲了深刻理解模型信心校準的特性，咱們分析了信心失準的token的語言學性質。首先，咱們比較了不一樣頻率的token的特性：

實驗發現模型在高頻詞上更不容易發生信心失準，而在中低頻詞上更容易發生信心失準。咱們從相對位置、繁殖力、詞性、詞粒度等角度分析了模型的信心校準狀況，詳情請見論文。

爲了探究當前深度學習技術與模型信心校準性質的影響，咱們受 Guo et al., 2017 的啓發，研究了正則化技術對機器翻譯模型的影響：

實驗發現，dropout和label smoothing這兩個在Transformer模型中很是經常使用的正則化技術有利於下降模型的ECE。基於實驗發現，咱們提出了一種Graduated label smoothing的方法，能夠進一步減少模型在推斷場景下的ECE。具體地，咱們的設計思想是對訓練集中模型自己預測機率較高的樣例使用較大的smoothing係數，對於預測機率較低的樣例使用較小的smoothing係數。

咱們還分析了ECE與模型大小的關係：

實驗發現儘管增大模型會提升翻譯的BLEU值，可是也會致使模型的ECE升高，這是增大模型參數量的一個弊端。另外咱們發現這個問題能夠經過只增大編碼器，保持解碼器不變這一簡單策略在必定程度上緩解。