機器翻譯評測——一種檢測批量譯文是否參考機器翻譯的方法

時間 2019-11-13

標籤機器翻譯評測一種檢測批量譯文是否參考方法简体版

原文原文鏈接

　　轉載請註明出處：http://www.cnblogs.com/by-dream/p/7669139.html google

　　首先解釋一下幾個名詞，因爲個人另外兩篇文章尚未寫出來，所以這裏須要先介紹一下：翻譯

　　翻譯評測集：如下簡稱評測集，一組由原文和譯文組成的文件，譯文通常由專業的譯員根據原文翻譯得到，在計算BLEU的時候只須要把譯文做爲參考答案使用便可。htm

　　BLEU：一種機器翻譯評價指標，用於分析候選譯文和參考譯文中n元組共同出現的程度，由IBM於2002年提出。一般須要用譯文和翻譯翻譯評測集共同計算得到分值，從而斷定譯文與評測集之間的類似程度。blog

　　爲何要寫這麼一篇文章呢？get

　　翻譯團隊在製做翻譯評測集時常常須要僱傭一些譯員和翻譯公司進行翻譯工做，因爲製做的評測集須要用來評價各個機器翻譯引擎，因此該譯文絕對不能參考機器翻譯，那麼如何得知譯員是否有參考機器翻譯引擎就成了一個比較重要的問題。目前市面上翻譯的成本大概在千字120-150元人名幣，咱們經過這種方法能夠有效的避免無效翻譯，節省成本。當有翻譯公司或我的完成翻譯工做後，咱們用這種方法來衡量翻譯的內容是否爲咱們可用的內容。事實證實，我這種方法確實頗有效。博客

　　此方法最便捷的方式就是經過腳本，能夠快速定位出現有譯文參考了哪些翻譯引擎，而且能夠快速定位到句子，而後人工分析句子後，就能夠知道是否參考了機器翻譯。it

　　咱們來看看具體的過程：io

　　首先咱們準備一份500句的英文語句,遞交給翻譯公司，需求是規定的時間內完成英文翻譯中文的任務。百度

　　在遞交以後，咱們使用市面上現有的機器翻譯引擎（百度翻譯、Google翻譯、有道翻譯、Bing翻譯、小牛翻譯、搜狗翻譯、騰訊翻譯君翻譯）對這份譯文進行翻譯，獲得各個引擎的中文結果文件，咱們把這些文件作爲未來要評測翻譯公司翻譯結果的一個評測集。

　　待翻譯公司呈交翻譯結果後，咱們用以前製做好的各個機器翻譯引擎翻譯結果的評測集針對譯員的翻譯結果進行BLEU的計算。咱們獲得以下數值：

　　百度：68.4, 89.4/73.5/63.2/56.1(BP=0.985,ratio=0.985,hyp_len=60808,ref_len=61743)

　　騰訊：45.96, 82.3/56.8/38.9/26.5(BP=0.981,ratio=0.981,hyp_len=60244,ref_len=61398)

　　搜狗：44.92, 81.1/55.8/37.8/25.7(BP=0.980,ratio=0.981,hyp_len=59788,ref_len=60967)

　　小牛：42.48, 80.5/53.9/35.7/23.3(BP=0.975,ratio=0.976,hyp_len=59451,ref_len=60940)

　　Bing：42.14, 81.5/54.0/36.0/23.9(BP=0.956,ratio=0.956,hyp_len=57653,ref_len=60276)

　　google：41.03, 80.8/52.5/34.3/22.5(BP=0.964,ratio=0.965,hyp_len=58155,ref_len=60260)

　　有道：40.01, 80.5/52.2/34.1/22.2(BP=0.947,ratio=0.949,hyp_len=56675,ref_len=59735)

　　通常咱們只看第一個數值：

　　根據經驗來看，通常BLEU的值的差距之間會比較小，例如上圖中除百度以外的其餘全部引擎，所以咱們能夠判斷出百度的分值的異常，頗有可能就是由於譯文有大量參考百度機器翻譯的緣由，爲了證明這個結論，咱們須要用百度的機器翻譯譯文和人工翻譯的譯文進行比較，可使用「比較軟件Beyond Compare」，也可使用我本身實現的same.py腳本，能夠直接看出百度的機器翻譯譯文和人工翻譯的譯文中徹底相同的句子。

　　如上圖所示，紅色部分是兩篇譯文直接有差距的地方，白色底色的部分就是徹底相同的句子。

　　這時候咱們再次提取出這些徹底相同的句子，BLEU若是特別高，基本就說明了參考的可能性越大，這時候咱們對這些句子進行流暢度和翻譯忠實度兩個標準進行評判，若是句子自己質量特別高，都沒有問題，那麼說明百度的翻譯質量很是高，已經接近了人翻，可是通常狀況下人工評測完的結果都是這些句子的質量不是特別好，那麼就說明這些句子並非來自人翻，而是直接採用了機器翻譯的結果。

　　以前合做的幾家翻譯公司提供過來的譯文通過這種方法的計算後，均發現了譯文有參考翻譯引擎的嫌疑，過後通過人工二次確認，發現翻譯公司確實沒有按照規定完成任務，譯員在翻譯的過程當中參考了機器翻譯，甚至有些直接採用了一些有問題的機器翻譯的結果。

　　說實話人都有惰性，通常讓一個譯員翻譯過多的譯文，不免會出現這樣的狀況，只要咱們掌握了這個方法，就能夠有效的避免這樣事情的發生了。