阿里巴巴WMT18平行語料過濾 Alibaba Submission to the WMT18 Parallel Corpus Filtering Task

https://zhuanlan.zhihu.com/p/51843485   一、簡介 在評估平行語料庫的質量時,研究語料庫的三個特徵,即1)語言/翻譯質量,2)單語質量,3)語料庫多樣性。 基於規則和基於模型的方法都適用於對並行句子對進行評分。 語料庫清理任務分爲三個部分: 高質量的並行句子對應該具有,其目標句子精確地轉換爲源句子的特性,反之亦然。通過量化翻譯質量(也稱爲雙語分數)和句子對的準
相關文章
相關標籤/搜索