神經機器翻譯中的曝光誤差,幻覺翻譯與跨域穩定性

⬆⬆⬆ 點擊藍字web

關注咱們算法

AI TIME歡迎每一位AI愛好者的加入!跨域

摘要:神經機器翻譯中的標準訓練策略存在曝光誤差問題。即便已有研究提出緩解曝光誤差方法,可是曝光誤差形成的實際影響仍然存在爭議。微信


本文,咱們將曝光誤差與神經機器翻譯中另外一個普遍討論的問題,即跨域下產生幻覺翻譯聯繫起來。經過三個數據集多個測試域的實驗,咱們證明曝光誤差是致使幻覺翻譯的緣由之一。使用最小風險訓練模型,避免暴露誤差,便可減輕幻覺翻譯。咱們的分析實驗解釋了爲何曝光誤差在跨域的場景下會形成更嚴重的問題,而且證明了曝光誤差與束搜索矛盾問題(即增長搜索束寬性能惡化)之間的聯繫。架構


本文的實驗發現爲減小暴露誤差的相關方法提供了一個新的佐證:即便它們不能提升域內測試集的性能,它們仍舊能夠提升模型的跨域穩定性。dom


王朝君,愛丁堡大學,愛丁堡大學信息學院科研助理,導師爲Alexandra Birch。主要研究方向神經機器翻譯,已在相關領域的國際頂級會議ACL發表論文。svg


1、幻覺翻譯和曝光誤差的概念函數


本次分享的內容主要是一篇分析文章,這篇文章主要聯繫了目前領域中的幾個理論問題和實際問題,好比:曝光誤差(Exposure Bias),幻覺翻譯(Hallucination),以及神經機器翻譯的跨域穩定性。此外還提出了一種新的可視化的方法,針對模型的曝光誤差。性能


首先,對幻覺翻譯作一個說明。幻覺翻譯指的是模型產生的翻譯和原文在內容層面是不相關的,可是沒有語法方面的錯誤。舉一個例子:給模型輸入一個德語句子,原意爲:她發現了咱們。可是模型會把它翻譯成:若是他們的症狀和你同樣。以前的研究和本次的工做都發現這樣的幻覺翻譯在模型的跨域翻譯情景下很常見。跨域穩定性的實際意義在於當用戶使用的目標領域未知或者在低資源狀況下,沒有充足的目標領域並行語料。這篇文章從幻覺翻譯的角度探究模型的跨域穩定性。學習


當前的端到端神經機器翻譯模型中有一個你們廣泛認知的理論缺陷,它就是曝光誤差。曝光誤差指的是模型訓練與預測過程之間的不匹配。在訓練時每個詞輸入都來自真實樣本,可是在推斷時當前輸入用的倒是上一個詞的輸出,因此這樣的不匹配你們稱之爲曝光誤差。像MRT最小風險訓練這樣序列級的訓練損失函數在理論上能夠避免曝光誤差的產生,可是在學界對曝光誤差實際產生的影響仍然存在爭議。在這篇論文的工做中,假設曝光誤差可能致使跨域下的幻覺翻譯問題。因此文章探究兩點:第一,曝光誤差是不是致使幻覺翻譯的緣由之一;第二,採用MRT損失函數訓練模型以後是否能減少幻覺翻譯的出現從而提高跨域穩定性。


2、MRT對跨域翻譯穩定性的影響


咱們對上述問題進行了實驗驗證。實驗使用兩個語言對,德語到英語(OPUS)和德語到羅曼什語(Allegra/Convivenza),括號中是語料的來源。德語到英語的訓練集使用的是醫療領域語句,而測試集語句則是關於IT,法律,古蘭經以及電影或電視字幕。對於德語到羅曼什語,訓練集使用的是法律領域語句,測試集語句是博客相關的語料。咱們採用Transformer做爲模型架構。首先使用最大似然函數訓練模型,做爲基線。而後使用MRT精調基線,做爲對比模型。



能夠看到通過一系列的超參數的搜索,在測試集上進行評估以後,最終的結果呈如今上圖中。藍色的表明基線模型,紅色表明MRT精調以後的對比模型。在兩個語言對上,在同域(In-domain)的測試集下,MRT對比基線在穩定性上沒有很大的提高,即翻譯質量沒有很明顯的提高。可是在跨域(Out-of-domain)的測試集中它有一個比較明顯的提高,比基線高出了07-0.8的穩定性。



進一步的對測試集中存在的幻覺翻譯比例進行了人工評測。人工評測環節要求評測員對翻譯的句子進行兩個分類打分,首先對於翻譯的流暢性從流暢、部分流暢、不流暢這三個程度進行打分。而後給評測員正確的翻譯結果,從內容的充足性上進行充足、部分充足、不充足三個程度進行打分。最終被分類爲部分流暢或流暢以及不充足的翻譯句子歸爲幻覺翻譯。從上面的表能夠看到,在MRT精調以後跨域翻譯的幻覺比例從33%降低到了26%。到目前爲止,經過實驗證明了MRT能夠緩解跨域翻譯下的幻覺翻譯比例,從而提高跨域穩定性。可是仍是不清楚這樣的提高是否來自於曝光誤差的減少。


爲了更進一步分析這個問題,因而經過可視化,觀察隨着MRT的精調,模型對於誤差有着怎麼樣的變化趨勢。文章所提出的方法,具體來講就是模型對正確標記的翻譯和隨機抽樣的句子的每一個token的機率進行打分,而後將結果可視化。這裏隨機抽樣的句子來自於和訓練語料領域一致的測試集,而且最終選取的句子長度必須和正確的翻譯同樣。所以,這個隨機抽樣的句子至關於一我的造的幻覺翻譯。



以上是通過不一樣updates的可視化結果,本次實驗是在德語到英語的跨域測試集上進行的。能夠看到在MRT 0 updates時,其至關於基線模型,它在前幾個迭代時間還可以對人造的幻覺進行區分,但隨着錯誤的翻譯歷史慢慢輸入,就可以發現它不能區分或者說不能給予正確翻譯更高的分數。可是隨着MRT的訓練,理論上它的曝光誤差會慢慢減少。首先忽略從0到500 updates,由於這一部分總體的機率的提高是由於在基線模型中進行了標籤平滑,可是在MRT的訓練函數中去掉了標籤平滑,因此模型對翻譯的置信度有所提高。因此咱們主要關注updates從500,1000,2000,3000,從圖片中能夠明顯看到MRT的精調會使得模型會給幻覺翻譯一個更大的懲罰,即模型可以區分出reference和distractor,這兩個曲線之間的縫隙也會愈來愈大,這意味着幻覺翻譯的比例也會慢慢減少。



一樣的現象出如今了同域的測試集中,最開始總體機率上升,500以後模型對distractor有一個下壓。雖然MRT對幻覺翻譯的誤差有一個減緩效果,可是因爲最開始MRT對reference有一個很是高的機率估計,達到了0.65,而在前面跨域測試集下,只有0.2的機率估計,因此即便模型存在曝光誤差,到後期他們之間的縫隙逐漸減少,可是最終的總體機率仍是沒法超越reference。能夠說在同域的狀況下曝光誤差帶來的實際問題就被隱藏了,所以序列集的訓練函數,例如MRT,所帶來的提高被隱藏了。因此說到目前爲止,經過分析實驗證明了文章的假設。



基於以上實驗,進行了進一步的假設,認爲以前實驗所發現的束搜索悖論問題(隨着束寬增大到必定程度,翻譯質量會降低)和曝光誤差有關。。因而使用束寬分別爲一、四、50進行了測試。能夠看到,隨着束寬增大,幻覺翻譯的比例發生了上升,即使MRT精調以後也沒有緩減這個現象。可是緩減了上升的幅度,從44%降低到了33%。同時在穩定性上能夠看到束寬4到50有所降低,可是通過MRT精調後降低幅度有所緩減,從16%降低到9%。


3、結論


這篇文章對曝光誤差這個理論缺陷提出了新的問題,即幻覺翻譯問題。經過實驗證明了經過MRT模型能夠減少跨域翻譯的幻覺翻譯比例,從而提高神經模型的跨域穩定性。更重要的一點,本實驗給序列級的目標函數提供了新的佐證,即便它不能對同域的翻譯質量進行一個比較明顯的提高,但可以提高模型的跨域穩定性。


嘉賓問答:


請問一下in-domain的曝光偏置問題嚴重嗎  如今有什麼比較有用的方法嗎?

目前的研究發現in-domain下曝光誤差所帶來的實際問題並非很嚴重,能夠參考一下這篇文章 https://arxiv.org/pdf/1905.10617.pdf。解決曝光誤差方法研究大概分兩類,一類是強化學習類的方法,把模型的翻譯與reference的metric做爲RL的reword,咱們工做中用到的MRT也算做這一類;另外一類是schedule sampling類,基本思想是模擬模型的預測過程來訓練模型,好比ACL2019 best paper就屬於這一類。




整理:閆昊

審稿:王朝君

排版:田雨晴


本週直播預告:


AI Time歡迎AI領域學者投稿,期待你們剖析學科歷史發展和前沿技術。針對熱門話題,咱們將邀請專家一塊兒論道。同時,咱們也長期招募優質的撰稿人,頂級的平臺須要頂級的你,請將簡歷等信息發至yun.he@aminer.cn!

微信聯繫:AITIME_HY



 

AI Time是清華大學計算機系一羣關注人工智能發展,並有思想情懷的青年學者們創辦的圈子,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法、場景、應用的本質問題進行探索,增強思想碰撞,打造一個知識分享的彙集地。

更多資訊請掃碼關注




(點擊「閱讀原文」下載本次報告ppt)

(直播回放:https://b23.tv/DDkF5J)



本文分享自微信公衆號 - AI TIME 論道(lundaoAI)。
若有侵權,請聯繫 support@oschina.cn 刪除。
本文參與「OSC源創計劃」,歡迎正在閱讀的你也加入,一塊兒分享。

相關文章
相關標籤/搜索