004-基於統計的翻譯系統

雙語數據預處理 學習目標:瞭解和學習開發漢英雙語數據預處理模塊。 雙語數據預處理是統計機器翻譯系統構建的第一步,爲詞對齊處理提供分詞後的 雙語數據。預處理的工作本質上就是雙語數據的分詞處理,與傳統分詞不同的一 點在於需要對一些特定類型詞彙進行泛化處理,如數字詞彙「123.45」泛化爲 「$number」來代替原文。本講中以漢英雙語數據爲處理內容。 本講學習內容:  中文分詞預處理 採用傳統基於詞
相關文章
相關標籤/搜索