機器翻譯評價指標

評價機器學習系統是的指標一樣適用於圖像或者視頻描述領域。BELU、Meteor、ROUGE、CIDEr和SPICE。前兩個是評測機器翻譯的,第三個是評測自動摘要的,最後兩個應該是爲caption定製的。機器學習

一、BLEUide

Bilingual Evaluation Understudy用於分析候選譯文(待評價的譯文)和參考譯文中N元組共同出現的程度,IBM於2002年提出的。oop

對於一個待翻譯的句子,候選譯文用Ci表示,而對應的一組參考譯文表示爲Si={Si1,Si2,Si3,...,Sim}€S學習

N-gram表示N個單詞長度的詞組集合,另Wk表示第k組可能的n-grams測試

hk(Ci)表示Wk在候選譯文Ci中出現的次數,hk(Sij)表示Wk在參考譯文Sij中出現的次數ui

BLEU則根據計算對應語句中的語料庫層面上的重合精度atom

其中k表示可能存在的n-gram序號lua

容易看出CPn(C,S)是一個精確度度量,在語句較短時表現更好,並不能評價翻譯的完整性,因此咱們引入一個懲罰因子BP(Brevity Penalty):spa

其中Ic表示候選譯文Ci的長度,Is表示參考譯文Sij的有效長度(當存在多個參考譯文時,選取和Ic最接近的長度)翻譯

本質上,BLEU是一個n-gram精確度的加權幾何平均,按照下式計算:

其中,N可取1,2,3,4,而Wh通常對全部n取常值,即1/n

BLEU在語料庫層級上具備很好匹配的語句上表現很好,但隨着n的增長,在句子層級上的匹配愈來愈差。

BLEU的優勢是它考慮的粒度是 n-gram 而不是詞,考慮了更長的匹配信息;BLEU的缺點是無論什麼樣的 n-gram 被匹配上了,都會被同等對待。好比說動詞匹配上的重要性從直覺上講應該是大於冠詞的。

例子:

待評價譯文:1:It is a guide to action which ensures that the military always obeys the commands of the party

                     2: It is to insure the troops forever hearing the activity guidebook that party direct

參考譯文1:It is a guide to action that ensures that the military will forever heed Party commands

              2: It is the guidingprinciple which guarantees the military forces always being under the command of the Party

              3: It is the practical guide for the army always to heed the directions of the party

當n=1時,待評價譯文1的 修正過的精確度值是17/18,待評價譯文2的 修正過的精確度值是8/14

當n=2時,待評價譯文1的 修正過的精確度值是10/17,待評價譯文2的 修正過的精確度值是1/13

二、METEOR

METEOR標準於2004年由lavir發如今評價指標中召回率的意義後提出的

他們的研究代表,召回率基礎上的標準相比於那些單純基於精度的標準(如BLEU),其結果和人工判斷的結果有較高相關性
METEOR測度基於單精度的加權調和平均數和單字召回率,其目的是解決一些BLEU標準中固有的缺陷
METEOR也包括其餘指標沒有發現一些其餘功能,如同義詞匹配等
計算METEOR須要預先給定一組校準(alignment)m,而這一校準基於WordNet的同義詞庫,經過最小化對應語句中連續有序的塊(chunks)chch來得出
則METEOR計算爲對應最佳候選譯文和參考譯文之間的準確率和召回率的調和平均:

Pen=γ(chm)θ

其中α、γ和θ均爲用於評價的默認參數

所以,METEOR的最終評價基於塊(chunk)的分解匹配和表徵分解匹配質量的一個調和平均,幷包含一個懲罰係數Pen

和BLEU不一樣,METEOR同時考慮了基於整個語料庫上的準確率和召回率,而最終得出測度

三、CIDEr(Consensus-based Image Description Evaluation)

這個指標將每一個句子都看做「文檔」,將其表示成 tf-idf 向量的形式,而後計算參考caption與模型生成的caption的餘弦類似度,做爲打分。換句話講,就是向量空間模型。考慮一張圖片是Ii€I(I:所有測試集圖片的集合)

對於一個n-gram Wk和參考caption 8ij,tf-idf計算方式是

式中的 Ω是所有 n-gram 構成的詞表。能夠看出 idf 的分母部分表明的是Wk出現於參考caption的圖片個數。

Fmean=PmRmαPm+(1α)Rm

那麼,CIDEr的值能夠用餘弦類似度的平均值來計算:

相似於BLEU的作法:

這個指標的motivation之一是剛纔提到的BLEU的一個缺點,就是對全部匹配上的詞都同等對待,而實際上有些詞應該更加劇要。

Pm=|m|khk(ci)
相關文章
相關標籤/搜索