主張由人類專家觀察不一樣語言間的轉換規律,以規則的形式表示翻譯知識。算法
缺點:翻譯知識獲取難、開發週期長、人工成本高等性能
主張以數據爲核心,經過數據模型來描述天然語言之間的轉換過程,在大規模語言文本數據中自動訓練數學模型。翻譯
其主要表明 爲「 統計機器翻譯 」(Statistics Machine Translate) 設計
經過隱結構來描述翻譯過程,利用特徵來刻畫翻譯規律,而且經過特徵的局部性採用動態規劃算法在指數級的搜索空間排序
中實現多項式時間複雜度的高效運算。開發
隱結構:詞語對齊、短語切分、短語調序、同步文法等同步
SMT面臨翻譯性能嚴重依賴於隱結構和特徵設計,局部特徵難以捕獲全局依賴關係,對數線性模型難以處理翻譯過程當中數學
的線性不可分現象等難題。基礎
創建在形式化語法的基礎上,但並不能包含人類語言學知識,如短語標記、詞與詞之間的依賴關係等。搜索
創建在語言學語法基礎上,將人類語言學知識包含到模型中,並根據其採用的結構樹形式的不一樣,又可將其分爲基於短語
結構樹、基於依存樹
經過短語結構樹,將短語的句法標記及標記間的依賴關係等引入到翻譯過程當中。
改模型經過依存樹,將詞與詞之間的了、依賴約束關係等語言學知識引入到翻譯過程當中。
基於形式化語法的模型與基於句法的模型相比,最明顯的特色是借用了形式化語法的結構,使得翻譯過程是層次化的,有結構的。
其優勢有二:
a、層次化結構使得處理複雜的遠距離重排序變得更爲可行。
b、層次化結構天然而然的引入非終結符號,從而使得模型可以處理非連續短語,同時又具備必定的泛化能力。
通俗的說,終結符號就是語言中用到的基本元素,通常不能再被分解; 名詞,動詞,形容詞,助詞,等等基本語言單位. 非終結符則是"語法"中用到的元素,除非談論"語法",通常交談語言中並不會用到非終結符. 好比,主語,短語,詞組,句子.