做者 | Yiqin Fu
最近一個德國的 AI 創業公司 DeepL 很火。他們說本身的機器翻譯在盲測中秒殺競品。DeepL 支持「英德法西意荷波」七種語言,漢、日、俄仍在開發中。
spring
我不是深度學習/NLP 專家,只是做爲語言和文學愛好者比較好奇如今機器翻譯的水平。若是機器翻譯能徹底替代人類翻譯,必定是先從英-法,英-德,英-西這幾種組合開始的。因此這裏咱們測試機器的西班牙語—英語翻譯,分別比較西語原文、DeepL、谷歌和專業譯者(若是有)。
機器學習
原材料是我提早選好的。按照我設想的難度從低到高分別是:
學習
阿根廷央行行長講稿(2017)測試
西班牙一反對黨黨首對首相的質詢(2016)ui
智利小說家波拉尼奧的短篇《克拉拉》選段(1997)spa
哥倫比亞小說家馬爾克斯的長篇《百年孤獨》選段(1967)翻譯
西班牙小說家塞萬提斯的長篇《堂吉訶德》選段(1615)3d
技術官員講話不省略單詞、不開玩笑,主要使用專業名詞,所以翻譯起來相對容易。
cdn
下圖中,從左至右依次爲原文、DeepL 翻譯、谷歌翻譯。紅色表示翻譯內容有誤,藍色表示翻譯準確,但英文表達略彆扭。
blog
能夠看出,DeepL 翻譯幾乎完美。除了第一句讀起來有些拗口,其餘不只正確並且流暢。谷歌翻譯把一些主語不一樣的從句拼在了一塊兒(後面會展開討論),致使有兩處的意思都翻譯錯了。
政客講話情感更激烈、使用的習語更多,不過句式仍是簡單爲主。
下圖中,從左至右仍然是原文、DeepL 翻譯、谷歌翻譯。
能夠看出,DeepL 不管是正確率仍是流暢度都賽過谷歌。DeepL 和谷歌都出錯的地方(紅色)是把「您...」翻譯成了「他...」——這是由於西班牙語裏常常會省略作主格的代詞(他/她/它/您/他們/您們),因此在只有動詞的狀況下(「ta 吃了晚飯」),只能經過上下文辨別這個 ta 究竟是誰。這篇講稿是對首相的當面質詢,幾乎全部的句子主語都是「您」,可是機器沒法判別。
整體來看,谷歌出的錯更多一些,有一處還把 「A 對 B 作了某事」翻譯成了 「B 對 A」。DeepL 的翻譯更符合原文,且一個不懂西語的人讀兩段英文翻譯,仍是更容易理解 DeepL 的。
文學做品的翻譯難度明顯提升,由於句子開始變長、變複雜,習語、省略開始增多。我選的這一段是《克拉拉》的開頭,雖然是文學做品,但內容也像是生活口語中會說的話。下圖從左至右依次爲西語原文、DeepL 翻譯、谷歌翻譯、人工翻譯。人工翻譯的做者爲 Chris Andrews,是第一個把波拉尼奧介紹給英文世界的譯者。
能夠看出,錯誤和不流暢的地方明顯比前兩篇增多。主要問題仍是主格代詞省略的時候,「他」錯寫成了「它」,「她」錯寫成了「它」……多數狀況下,咱們光看機器翻譯,其實也能從上下文分析出這個 ta 指的究竟是誰。但小說裏有一段是天使(「他」)和主人公喜歡的女孩(「她」)同時出如今主人公的夢裏,這個時候翻譯錯「他」和「她」是很是影響理解的。
整體來看,DeepL 遇到主語省略的時候,處理的仍是比谷歌好——DeepL 只會弄錯 ta 到底是哪一個 ta,而谷歌有時候會莫名其妙地把兩個主語不一樣的從句拼接在一塊兒,改變原意。
好比這個從句(注意加粗的詞):
西語原文:después Clara volvió a su ciudad en el sur de España (estaba de vacaciones en Barcelona)
人工英譯:then Clara returned to the city where she lived, in the south of Spain (she’d beenon vacation in Barcelona)
人工中譯:而後克拉拉回到了她居住的西班牙南部城市(她以前在巴塞羅那度假)
DeepL:then Clara returned to her city in the south of Spain (it was on vacation in
Barcelona)
谷歌:then Clara returned to her city in southern Spain was on vacation in
Barcelona)
谷歌不知道「在度假」修飾的是誰,結果就直接翻譯成「西班牙在度假」了。
另外,DeepL 把習語和生僻詞翻譯得更好:
西語 presentar a un concurso de belleza 意爲「參加選美」,谷歌譯作 present to a beauty pageant,徹底是字面翻譯,而 DeepL 知道這是「參加選美」的意思,譯作 take part in a beauty pageant
西語 cursilería,表示「用爛了的、老套的」,谷歌不知道怎麼翻譯,DeepL 準確翻譯成 corny
這一關,DeepL 完勝谷歌。可是讓一個不懂西語的人只看 DeepL 翻譯,仍是會由於「他」「她」弄錯的問題而一頭霧水。撇開句意,就美感來講,DeepL 已經讀不出「機器感」了。谷歌的翻譯由於好幾處不通,因此明顯能看出是機器做品。它們倆比人工翻譯仍是差了很多。人工翻譯朗讀出來韻律感更強,從第一句就能感覺到。
我刻意選了小說結尾處對話多的一段,但願更多的省略和口語會提升難度。下圖從左至右依次爲西語原文、DeepL 翻譯、谷歌翻譯、人工翻譯。人工翻譯的做者爲 Gregory Rabassa,曾獲美國國家圖書獎。
能夠看出,DeepL 仍是略勝一籌,但仍和人工譯者差距較大。
最多的問題仍是出在主語省略時的「他」「她」「它」。另外,間接賓語好像也是翻譯難點:
西語原文:la gente tenía la costumbre de ponerles a los hijos los nombres de las calles
人工英譯:people had the custom of naming their children after streets
DeepL:people used to name the streets after their children
谷歌:people had the habit of putting their names on the streets
西語的 poner A B 有「根據 B 命名 A」 的意思,谷歌只是字面翻譯成了 put A on B(「把 A 放在 B 上面」),而 DeepL 知道這個詞組但弄反了 A 和 B 的關係,譯作「根據 A 命名 B」。我不太清楚爲何 DeepL 會弄反,由於這個「謂語+賓語+賓語」的格式仍是很標準的。
時態上,DeepL 和谷歌都很精準,把全部的虛擬語氣都翻譯了出來("it would be"),這在技術上實現起來很是簡單,由於原文總有惟一的正確翻譯。但人工翻譯的時候爲了讓句子更流暢,不少直接譯成了通常如今時("it is")。在原文裏,虛擬語氣和通常如今時在乎思上沒有區別,而人工翻譯選的通常如今時,讀起來更順。
《堂吉訶德》由於寫做年代早,因此翻譯難度應該很大。任何機器翻譯用到的訓練數據應該也不包括這個年代的材料。我還特地選告終尾的一首詩,加大難度。翻譯結果由於慘不忍睹,因此就沒有標註紅色藍色了:(最右一列人工翻譯的做者是 John Ormsby)
能夠看出,DeepL 一開始就弄反了句意。兩個機器進入詩歌之後就徹底不知道在說什麼了。人工譯文由於要模仿原文的押韻,因此沒有逐字翻譯,意思和原文不徹底貼合。固然,從英語角度來講,確定是流暢和美的。
句子沒有省略、詞彙沒有習語的文章(例如政府公文、產品說明書、嚴肅演講),機器已經能近乎完美地進行西語-英語翻譯了。譯文不只準確且流暢,不少時候你可能都猜不到它出自機器之手。
而對於平常對話、藝術做品,機器在西語-英語翻譯的時候仍是不知道怎麼處理代詞省略的狀況。我很是好奇技術上應該如何解決主語省略這個問題,由於一樣是西語的 「is having dinner"(「está cenando」),有的語境下,正確翻譯是「他在吃晚飯」,有的語境下又是「她」、「它」或者「您」。而透露出到底是哪一個 ta 的「上下文」可能和這個句子隔了好幾行,且「上下文」裏也有男有女有動物。在原文徹底同樣、而正確翻譯不一樣的狀況下,究竟怎麼讓機器學習「上下文」呢?
中文裏也有一樣的問題,可能比西語還更嚴重。好比《圍城》開頭的這一段:
一天,他到柏林圖書館中國書編目室去看一位德國朋友,瞧見地板上()一大堆民國初年上海出的期刊,《東方雜誌》、《小說月報》、《大中華》、《婦女雜誌》全有。信手翻着一張中英文對照的廣告,是美國紐約什麼「克萊登法商專門學校函授班」,未來畢業,給予至關於學士、碩士或博士之證書,章程函索即寄,通信處()紐約第幾街幾號幾之幾,方鴻漸內心一運,想事隔二十多年,這學校不知是否存在,反正去封信問問,不費多少錢。那登廣告的人,原是個騙子,由於中國人不來上當,改行不幹了,人也早死了。
加粗部分和我添了括號的動詞,都「缺」主語。讀者很容易判斷「未來畢業」的「畢業」講的是方鴻漸,緊接着的「給予...證書」講的是克萊登大學。可是應該如何訓練機器呢?但願 NLP 專業人士能夠寫文章講解一下,知足羣衆的好奇心哪!網上搜索找到了這方面的文獻(https://link.springer.com/article/10.1007/s10590-016-9184-9),但畢竟不是專業人士,仍是期待科普文章。
上面這段《圍城》,由於 DeepL 不支持中文,因此咱們只能看谷歌翻譯。如你所見,除了一些固定搭配谷歌不「認識」以外,最大的問題就是主格代詞省略了。
One day, he went to the Berlin Library Chinese book catalog room to see a German friend, see a lot of the first year of the Republic of Shanghai out of the journal, "Oriental magazine", "Novel Monthly", "Greater China", "Women Magazine "all have. I would like to write a letter in the future, to give the equivalent of a bachelor, master or doctor of the certificate, the letter of the letter is sent to the letter, the Department of New York, the number of New York, the United States and the United States How many times the school, I do not know whether there is any school, anyway, to ask the letter to ask, how much money. That advertised people, was originally a liar, Because the Chinese people do not come up, diverted to quit, people have died early.
做者:Yiqin Fu
原文標題:測試一個號稱強過谷歌翻譯的創業公司產品 DeepL
地址:https://zhuanlan.zhihu.com/p/28995486