譯文質量評價

問題的提出:

  機器翻譯的研究必然伴隨着翻譯質量評價,質量評價是研究翻譯領域不可或缺的反饋環節。評價譯文質量的應用需求十分普遍,算法

不只機器翻譯系統須要評測和對比,在譯文的出版編輯、語言翻譯教學等領域也須要對譯文的質量進行評價。譯文質量評價是一個性能

主觀性較強的問題,評分的高低實質上是對評價者而言譯文的可接受程度。同一個譯文,不一樣的評價者或同一個評價者屢次翻譯的學習

結果可能並不徹底一致。測試

  面對海量譯文,人工評價顯得愈來愈力不從心。尤爲是在機器翻譯快速發展的今天,須要快速發現譯文中的錯誤調節翻譯系翻譯

統中的參數評價系統性能進行不一樣系統的比較等,使得質量自動評價的研究也成爲熱點。2010年,ACL首次將翻譯評價標準和對象

機器翻譯、系統綜合一塊兒列爲統計機器翻譯的三大研討問題。排序

翻譯評價研究分類:

  (1)根據研究對象的不一樣來分類學習方法

  (2)根據評價方式的不一樣來分類語法

  (3)根據實現的方法不一樣來分類方法

  在基於以上三點的狀況下有從有無參考譯文、評價粒度及對語言知識的依賴程度等進一步細分。

根據譯文的來源:

人類譯文:

  人類譯文的自動評價更多的模擬專家評價的思想。人類譯文自動評價的方式包括評分和診斷兩類,實現評價是一般有加分法和減

分法兩種:

    加分法是經過累計正確的得分點的分數來對譯文進行打分

    減分法是基於譯文中的錯誤從滿分值中作減法。

  大多數質量評價基於錯誤分類方案進行,即根據錯誤數及錯誤的嚴重程度實行減分。而錯誤分爲兩類,大錯小錯大錯是指譯文

基本成分的錯,錯誤將致使語義混亂。小錯是指使用了不恰當或不正確的表達方式或語法。固然,評價譯文質量的高低經常還有一我的

們對錯誤的容忍度的問題,所以關於錯誤體系的構建成爲核心研究問題,例如美國翻譯家協會ATA將錯誤劃分爲22種類型,不一樣類型的

錯由不一樣類型的分值。

  對於學習者譯文評價的研究也在開展,研究以加分法爲主,首先須要有專家參與肯定譯文的評分點,而後經過統計評分點的出現情

況並綜合其餘特徵,如譯文的形式特徵、譯文和原文的對其特徵等進行迴歸分析,從而獲得譯文的評分。

 機器譯文的評價方法:

  機器譯文自動評價的研究今年來如雨後春筍般出現,大體分爲如下三類:診斷性評價、評分和排序。

診斷性評價:

  診斷性評價今年來開展的工做最少,一種方法爲人工將測試句中的重要語言測試點挑出來並分類,而後在機器譯文中自動檢測這些

測試點是否被正確翻譯出來,從而評價譯文質量。測試點分爲詞語、成語、詞法、基本語法、中級語法和高級語法六類分別設定對質量

影響的權重而後利用加分法進行評分。另外一種方法提出的用於 「 863 」 機器翻譯評測的WoodPecker,對檢測點實現了自動提取,減小了

對人工的依賴。

評分:

  評分是最多的自動評價方式。評價機器譯文時,根據有無參考譯文又分爲兩種研究有參考譯文的評價是經過將待評價譯文和參考

譯文做比較,根據類似程度評分,這種研究居多。而不須要參考譯文的評分也稱爲譯文質量估計根據譯文的特徵將譯文質量簡單分爲

「 好 」 或 「 壞 」 ,或者區分人類譯文和非人類譯文。質量估計被用來作二分類問題。

  有參考譯文:

   依賴參考譯文的評價,參考譯文就是標準答案,與參考譯文越類似,譯文質量越高,這個假設是評價算法的基本思想。而待求譯

文和參考譯文之間類似度的計算的方法多種多樣,這些方法根據語言粒度能夠分爲詞彙層面的類似句子或語篇層面的類似,根據對

言知識的依賴程度又能夠分爲非語言、輕語言和重語言

  非語言的方法一般不須要語言層面的分析來計算類似,常見的有四種:

        (1)基於編輯距離的方法如WER、PER、TER等。

        (2)基於準確率的方法如BLUE、NIST、SIA等。

        (3)基於召回率的方法如ROUGE等。

        (4)基於綜合指標的方法如GTM、PORT等。

  輕語言的方法須要利用一些語言信息進行質量評價,如詞性POS、同義詞典等。著名的算法有METEOR、METEOR-NEXT等

  重語言的類似求解方法則對譯文進行較多的語法或語義層面的分析,從句法結構、重述、近義、文本蘊含等語言方面計算待評價譯

文和參考譯文的類似度。

排序法:

  排序法適用於對一組譯文進行評價,根據質量高低排序。

評價排序的優勢有三:

  (1)人工評測是,排序比打分更容易

  (2)人工排序的評價的一致性比打分一致性更高。

  (3)更適用於系統之間的比較。

  能夠將BLEU得分、依存關係匹配、困惑度融合到SVM學習方法中,根據SVM的得分對一組機器譯文的優劣進行排序。影響譯文

質量的因素是多方面的,常見的包括譯文的流利度和充分性或可理解性等。

相關文章
相關標籤/搜索