機器翻譯

時間 2019-12-13

標籤機器翻譯简体版

原文原文鏈接

機器翻譯

機器翻譯大致通過了兩個階段：

理性主義階段（1949~1992）：

主張由人類專家觀察不一樣語言間的轉換規律，以規則的形式表示翻譯知識。算法

缺點：翻譯知識獲取難、開發週期長、人工成本高等性能

經驗主義階段（1993~2016）：

主張以數據爲核心，經過數據模型來描述天然語言之間的轉換過程，在大規模語言文本數據中自動訓練數學模型。翻譯

其主要表明爲「統計機器翻譯」（Statistics Machine Translate） 設計

統計機器翻譯

基本思想：

經過隱結構來描述翻譯過程，利用特徵來刻畫翻譯規律，而且經過特徵的局部性採用動態規劃算法在指數級的搜索空間排序

中實現多項式時間複雜度的高效運算。開發

隱結構：詞語對齊、短語切分、短語調序、同步文法等同步

缺點：

SMT面臨翻譯性能嚴重依賴於隱結構和特徵設計，局部特徵難以捕獲全局依賴關係，對數線性模型難以處理翻譯過程當中數學

的線性不可分現象等難題。基礎

基於句法的統計機器翻譯（2000年後）

基於形式化語法的翻譯模型：

創建在形式化語法的基礎上，但並不能包含人類語言學知識，如短語標記、詞與詞之間的依賴關係等。搜索

基於語言學語法的翻譯模型：

創建在語言學語法基礎上，將人類語言學知識包含到模型中，並根據其採用的結構樹形式的不一樣，又可將其分爲基於短語

結構樹、基於依存樹

a、基於短語結構樹

經過短語結構樹，將短語的句法標記及標記間的依賴關係等引入到翻譯過程當中。

b、基於依存樹

改模型經過依存樹，將詞與詞之間的了、依賴約束關係等語言學知識引入到翻譯過程當中。

基於形式化語法的模型與基於句法的模型相比，最明顯的特色是借用了形式化語法的結構，使得翻譯過程是層次化的，有結構的。

其優勢有二：

a、層次化結構使得處理複雜的遠距離重排序變得更爲可行。

b、層次化結構天然而然的引入非終結符號，從而使得模型可以處理非連續短語，同時又具備必定的泛化能力。

通俗的說,終結符號就是語言中用到的基本元素,通常不能再被分解; 名詞,動詞,形容詞,助詞,等等基本語言單位. 非終結符則是"語法"中用到的元素,除非談論"語法",通常交談語言中並不會用到非終結符. 好比,主語,短語,詞組,句子.

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。