機器翻譯

機器翻譯

機器翻譯大致通過了兩個階段

  理性主義階段(1949~1992):

          主張由人類專家觀察不一樣語言間的轉換規律,以規則的形式表示翻譯知識。算法

          缺點:翻譯知識獲取難、開發週期長、人工成本高等性能

  經驗主義階段(1993~2016):

          主張以數據爲核心,經過數據模型來描述天然語言之間的轉換過程,在大規模語言文本數據中自動訓練數學模型。翻譯

          其主要表明 爲「 統計機器翻譯 」(Statistics  Machine  Translate) 設計

統計機器翻譯

  基本思想:

         經過隱結構來描述翻譯過程,利用特徵來刻畫翻譯規律,而且經過特徵的局部性採用動態規劃算法在指數級的搜索空間排序

         中實現多項式時間複雜度的高效運算。開發

         隱結構:詞語對齊、短語切分、短語調序、同步文法等同步

  缺點:

         SMT面臨翻譯性能嚴重依賴於隱結構和特徵設計,局部特徵難以捕獲全局依賴關係,對數線性模型難以處理翻譯過程當中數學

         的線性不可分現象等難題。基礎

基於句法的統計機器翻譯(2000年後)

  基於形式化語法的翻譯模型:

         創建在形式化語法的基礎上,但並不能包含人類語言學知識,如短語標記、詞與詞之間的依賴關係等。搜索

  基於語言學語法的翻譯模型:

        創建在語言學語法基礎上,將人類語言學知識包含到模型中,並根據其採用的結構樹形式的不一樣,又可將其分爲基於短語 

        結構樹、基於依存樹

       a、基於短語結構樹

       經過短語結構樹,將短語的句法標記及標記間的依賴關係等引入到翻譯過程當中。

       b、基於依存樹

       改模型經過依存樹,將詞與詞之間的了、依賴約束關係等語言學知識引入到翻譯過程當中。

基於形式化語法的模型與基於句法的模型相比,最明顯的特色是借用了形式化語法的結構,使得翻譯過程是層次化的,有結構的。

  其優勢有二:

     a、層次化結構使得處理複雜的遠距離重排序變得更爲可行。

     b、層次化結構天然而然的引入非終結符號,從而使得模型可以處理非連續短語,同時又具備必定的泛化能力。

   通俗的說,終結符號就是語言中用到的基本元素,通常不能再被分解;   名詞,動詞,形容詞,助詞,等等基本語言單位.   非終結符則是"語法"中用到的元素,除非談論"語法",通常交談語言中並不會用到非終結符.    好比,主語,短語,詞組,句子.

相關文章
相關標籤/搜索