技術編輯:鳴飛 發自北京
SegmentFault 思否報道丨公衆號:SegmentFaulthtml
科技巨頭谷歌、微軟和Facebook都在將機器學習的經驗教訓應用到翻譯領域,但一家名爲DeepL的小公司卻超越了他們,提升了這個領域的標準。它的翻譯工具的速度不亞於那些規模龐大的競爭對手,但比咱們嘗試過的任何一款翻譯工具都要準確和細緻。web
通過幾回試驗,咱們都認爲DeepL的翻譯廣泛優於Google Translate和Bing的翻譯。Google Translate常常會去找一個很是直白的翻譯,錯過了一些細微的差異和成語(或者是把這些成語翻譯成錯了),而DeepL常常提供一個更天然的翻譯,更接近於一個訓練有素的翻譯者的翻譯。數據庫
DeepL從Linguee演化而來segmentfault
DeepL誕生於一樣優秀的Linguee,這是一款已經存在多年的翻譯工具,雖然很受歡迎,但一直沒有達到谷歌翻譯的水平--畢竟後者在品牌和地位上有很大的優點。Linguee的聯合創始人Gereon Frahling曾在Google Research工做過,但在2007年離開Google並開始了本身的新的事業Linguee。微信
這支團隊多年來一直致力於機器學習,從事與核心翻譯相鄰的任務,但直到去年,他們纔開始認真地研究一個全新的系統和公司,而這兩個系統和公司的名字都將是DeepL。網絡
Frahling提到如今時機已經成熟:"咱們已經創建了一個神經翻譯網絡,其中包含了大部分最新的發展,咱們在其中加入了本身的想法。"機器學習
一個由超過10億個翻譯和查詢組成的龐大數據庫,再加上經過在網絡上搜索相似的片斷進行落地翻譯的方法,爲新模型的訓練打下了堅實的基礎。他們還把他們聲稱的世界上第23臺最強大的超級計算機放在了一塊兒,位於冰島境內。工具
DeepL的翻譯服務使用了搭建在Linguee數據庫之上的卷積神經網絡及另外一種並未公佈的專有方法涉及注意力機制。DeepL GmbH擁有一臺浮點性能爲5 Petaflops的機器,用於其翻譯服務的訓練和生產。性能
由大學、研究機構以及Linguee公司的競爭對手所公佈的發展狀況代表,卷積神經網絡纔是發展的方向,而不是該公司以前一直使用的遞歸神經網絡。如今真的不是深刻研究CNNs和RNNNs之間的區別的地方,因此必需要說的是,對於長的、複雜的相關詞串的準確翻譯,只要你能控制好它的弱點,前者是一個更好的選擇。學習
例如,CNN大體能夠說是能夠一次解決一個單詞的句子。但當好比常常發生的狀況,句尾的一個詞決定了句子開頭的一個詞應該如何組成時,這就成了問題。通讀整個句子,只是發現網絡選取的第一個詞是錯誤的,而後再根據這個知識從新開始,這是很浪費的,因此DeepL和機器學習領域的其餘人應用了 "注意力機制",監控這種潛在的絆腳石,並在CNN轉移到下一個詞或短語以前解決它們。
關於隱私政策
不管是DeepL Pro仍是免費的DeepL Translator都不容許被用於翻譯「包含任何種類我的資料的文本」 與免費版不一樣,DeepL Pro宣稱並不會儲存翻譯文本。更多能夠查看他們的privacy。
感興趣的同窗們能夠試一試,相信Deepl會成爲你新的助力你翻譯的生產力工具。咱們也很是歡迎對Deepl背後技術的同窗們分享更多他們更多技術相關的細節。