滴滴AI Labs斬獲國際機器翻譯大賽中譯英方向世界第三


桔妹導讀:深耕人工智能領域,致力於探索AI讓出行更美好的滴滴AI Labs再次斬獲國際大獎,此次獲獎的項目是什麼呢?一塊兒來看看詳細報道吧!安全

近日,由國際計算語言學協會ACL(The Association for Computational Linguistics)舉辦的世界最具影響力的機器翻譯大賽 WMT2020發佈了全部團隊今年提交的Primary Submission的結果。經過官方提供的Reference數據以及評估腳本,每一個參賽隊伍能夠評估全部參賽隊伍的最終BLEU成績,滴滴AI Labs的NLP團隊在競爭最激烈的新聞中譯英賽道機器評測中成功斬獲世界第三。WMT是機器翻譯領域承認度最高的國際頂級評測比賽,從2006年創辦至今,每一年都會吸引包括微軟、Facebook、DeepMind、百度、華爲、騰訊、清華大學、上海交通大學、約翰霍普金斯大學、劍橋大學、愛丁堡大學等全球企業、科研機構以及頂級高校的參與。每次比賽都是各家機器翻譯實力的大比拼,也見證了行業機器翻譯技術的不斷進步。測試

BLEU指標評估排名前十的參賽團隊

這次滴滴NLP團隊參與的是WMT2020新聞機器翻譯賽道(Shared Task: Machine Translation of News)。該賽道共設置了22項不一樣語言之間的翻譯任務,其中,中文到英文翻譯是競爭最激烈的任務,共吸引了DeepMind、騰訊、華爲、清華大學、上海交通大學等四十多支全球參賽團隊參與,在6月24日至6月30日爲期七天的比賽時間裏,參賽團隊累計共提交了近300次數據。優化

與往年不一樣,今年新聞中譯英比賽參賽方均爲匿名提交,比賽期間只能看到本身成績以及其餘匿名參賽方成績,而且每一個參賽方最多能夠提交7次翻譯結果,比賽結束後各參賽方不可再次提交,各參賽方從全部提交中選擇其中一個提交結果做爲Primary Submission供人工評估使用。ui

WMT組委會爲每一個語言賽道提供指定的雙語的訓練集以及單語語料。參賽方能夠根據本身的模型利用相關的訓練集。比賽開始後組委會提供的單語的測試集 (Source),參賽方利用本身的模型對測試集的語言進行預測,而後提交至OCELoT系統。組委會利用SacreBLEU1指標對參賽方提交的譯文與組委會未公開的標準答案 (Reference) 進行計算,分數越高表明翻譯效果越好。人工智能

在本次中譯英賽道中,滴滴NLP團隊在技術上以Transformer2結構做爲基礎,在結構上引入Self-Attention, Relative Positional Attention, Larger FFN Size等變化,利用迭代式回譯技術 (Iterative Back-translation) 和交替知識蒸餾 (Alternate Knowledge Distillation) 方法生成高質量的合成語料,結合數據清洗、數據選擇、模型集成等技術提升翻譯質量。考慮到翻譯話題對於翻譯質量的影響,滴滴翻譯還採用了領域遷移、話題挖掘和個性化加權的方式,使得翻譯結果更加個性化。此外,咱們還經過EDA、權重剪枝等技術加強翻譯模型的魯棒性。最終滴滴翻譯高效準確的進行完成WMT2020中譯英賽道翻譯任務,而且最早得到36.6的高分,最終得到第三名的成績,充分彰顯了滴滴在機器翻譯領域的技術實力。翻譯

目前,滴滴翻譯技術已經普遍應用於國際化IM翻譯、國際化判責、國際化運營等業務場景。後續滴滴NLP團隊將不斷推動天然語言處理以及滴滴翻譯等相關技術的研究與落地,持續迭代模型,優化響應速度,供更高質量的翻譯服務。orm

Referencesblog

1. Matt Post. 2018. A call for clarity in reporting BLEU scores. In Proceedings of the Third Conference on Machine Translation: Research Papers, pages 186–191, Belgium, Brussels. Association for Computational Linguistics.ci

2. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In Advances in neural information processing systems, pages 5998–6008.get

團隊介紹

滴滴AI Labs NLP團隊關注於天然語言處理、機器翻譯、語音實時翻譯、語義分析等領域,成果應用於滴滴國際化司乘消息翻譯、內容安全、智能客服等業務。

延伸閱讀

內容編輯 | Charlotte & Teeo
聯繫咱們 | DiDiTech@didiglobal.com

滴滴技術 出品

相關文章
相關標籤/搜索