機器翻譯重要過程(2)---詞語對齊

在上一步預處理完成之後,平行句對中的中文部分都被切分成了相應的短語,而英文的大小寫、格式、相應的空格也都加上了,在這之後就可以完成詞語對齊的過程了。詞語對齊的目標是得到中英文詞或短語的對齊信息,便於翻譯系統做解碼時尋找相應的phrase。 詞語對齊這一步一般都採用開源工具完成,比如現在用的最多的GIZA++,但是在平行語料數據量大的情況下,可能其完成整個詞語對齊的過程耗時較長。現在也有MGIZA+
相關文章
相關標籤/搜索