機器翻譯重要過程(1)---數據預處理

目前有如之前基於統計的開源翻譯系統介紹中提到的許多開源統計翻譯系統,在由原始平行語料到形成最後的翻譯系統的整個過程中,它們有一些相同的處理步驟,從這次的文章開始,陸續介紹幾個最重要的過程做法及其意義。 一般在我們得到雙語平行語料之後,在構建雙語統計翻譯系統之前,都會有一個雙語數據預處理的過程,爲後續例如詞對齊處理提供分好詞且格式恰當的雙語數據。這裏以漢英雙語數據舉例。 在中英翻譯系統構建過程中,對
相關文章
相關標籤/搜索