跨境電商市場愈來愈大,商家們也遇到了新問題。以阿里巴巴國際站爲例,七成買家以英語溝通,剩下三成的小語種,卻難住了平臺上近96%的賣家。程序員
「翻譯和本地化都作很差,說明你對海外市場根本不重視,還想怎麼品牌出海?」一米八大高個的李兮芝,語速極快,說話從不繞彎。算法
李兮芝是阿里巴巴國際貿易事業部(ICBU)阿里語言服務總經理,對商家的痛點了如指掌。講到最棘手的案例,他會馬上站起來,抄起一支筆,在會議室的白板上演示一番。網絡
阿里巴巴國際站用戶溝通語言現狀學習
坐在李兮芝一旁的駱衛華,語速要慢許多。2014年1月,中科院計算所出身的駱衛華,加入了阿里,現在是阿里巴巴達摩院翻譯平臺負責人。阿里雲
今年5月,在全球機器翻譯領域影響最大、水平最高的WMT2018評測中,駱衛華帶領的翻譯技術團隊一舉拿下5個語言方向的冠軍,成爲比賽的最大贏家。人工智能
與谷歌、微軟、百度等作不區分場景的通用翻譯不一樣,阿里選擇在電商場景的翻譯上發力。目前,阿里機器翻譯已支持21個語種的48個語言方向的翻譯,日均使用量已達到7.5億次。除了支持離線及文字翻譯,還支持實時語音、圖片以及視頻翻譯,應用於阿里巴巴國際站、速賣通、LAZADA、菜鳥、阿里雲、釘釘、飛豬等40多個業務部門。spa
「首先在電商場景下,咱們要把機器翻譯作到最好。」駱衛華說,但在將來將不侷限於電商翻譯。翻譯
《聖經》舊約中,人類曾聯合起來搭建通往天堂的高塔,上帝爲了阻止這一計劃,讓人類說上不一樣的語言。沒過多久,沒法溝通的人類便四散而去。視頻
回溯機器翻譯的源頭,不難發現,這是一場爲了再造《聖經》中「通天塔」而展開的「軍備競賽」。圖片
冷戰時期,蘇聯和美國的科學家就曾在機器翻譯上有過幾番較量。當時,機器翻譯領域的主角是懂得英俄雙語的語言學家,他們試圖爲計算機編寫出一套雙語規則。「但問題是,規則和規則之間存在大量衝突,在實際應用中會出現大量異常狀況。」
駱衛華說,很長一段時間,機器翻譯都被侷限在編寫規則的泥淖中,直到上世紀90年代,才被IBM Watson研究中心提出的統計機器翻譯所取代,程序員開始取代語言學家,站上了機器翻譯領域的主舞臺。
2014年,蒙特利爾大學計算機系博士後Kyunghyun Cho等人關於將人工智能底層模型「神經網絡」應用於機器翻譯的論文,又一次吹響了翻譯技術革命的號角。這一年,各大互聯網公司開始大舉投入,諸多優秀的學者和學生陸續加入谷歌、亞馬遜、臉譜和BAT。
在中科院學習和工做近12年的駱衛華,在「糾結一段時間後」,也決定跳出學術圈,選擇加入阿里,去實現將技術真正落地的夢想。「之前在實驗室的主要任務是發paper(論文),作課題,只有這個領域的人才會關心,但如今天天有幾千萬人在實際使用你的產品,這種感受是徹底不同的。」
2014年,駱衛華加入阿里
不一樣於大多數在通用翻譯領域廝殺的玩家,阿里機器翻譯團隊以核心電商場景爲起點,爲整個國際化業務提供本地化解決方案。
「項目不少,得排期。好比,二、3月作釘釘的項目,四、5月要作速賣通項目。」駱衛華說,除此以外,團隊還會時不時會接到十萬火急的需求。好比,去年雙11以後,團隊曾用兩個星期,與菜鳥團隊一塊兒加班加點編寫了一套報關自動翻譯產品,「後來菜鳥評估說,整個報關成本降低了90%。」
說到機器翻譯,除了算法模型,大量的樣本數據是很是重要的。這也偏偏是阿里的優點所在。
「舉個例子,‘Photo Print’這個詞在通用語境下會被翻成‘照片打印’,但你知道它在紡織面料行業裏是什麼意思嗎?」李兮芝接着說,「這是‘熱轉印印花’工藝的一種,翻成照片打印就貽笑大方了。」
阿里自己沉澱了大量電商領域相關的數據,機器翻譯團隊進一步梳理出10億級別的雙語平行語料、億級別的電商雙語平行語料、千萬級電商知識庫,以及大規模行業多語言術語庫。
然而,語言上的準確翻譯只是第一道難關,更困難的是經過算法實現文化、法律、經濟、宗教等層面的本地化落地。
一個案例讓李兮芝印象深入。「一樣是10萬,英美國家千位分隔符用逗號,標成‘100,000’;但法國、西班牙的千位分隔符是句號,逗號用來標小數點,10萬在法國得標成‘100.000’,若是標成‘100,000’就表示是100了。」這類大額數字在阿里巴巴國際站常常出現,曾經出現過中國賣家由於沒有將數字本地化,而被買家投訴的狀況。
阿里巴巴ICBU語言服務總經理李兮芝
今年4月,主打男裝的國內服飾品牌英爵倫,加入了阿里旗下的東南亞電商平臺Lazada上的「淘寶精選」(Taobao Collection)計劃。Lazada經過自動抓取天貓店的產品,幫助品牌拓展東南亞市場。「咱們天貓店商品標題是全中文的,沒想到Lazada能自動翻譯成英文。」英爵倫跨境電商負責人劉晨芳說,「最重要的是,機器自動翻譯的英文品牌名‘Enjeolon’,和咱們真實的英文名分絕不差,太神奇了。」
英爵倫發現,品牌名英文名翻得分絕不差
劉晨芳不知道的是,Lazada這套自動翻譯系統也是由阿里巴巴機器智能翻譯團隊開發出來的。翻譯系統還改寫了標題,讓產品描述看上去更加接地氣。
「淘系商品標題沒有固定格式,由N個熱搜詞組成,但不是一個完整的句子。要是直接翻譯,海外消費者壓根看不懂。」李兮芝說,這種沒有上下文信息的標題翻譯,不論對人仍是對機器,都是極大的挑戰。「咱們曾經找來專業人工譯員翻譯標題,結果譯員翻到一半不幹了,根本看不懂。」
後來,團隊經過融合多種天然語言處理和文本生成技術,攻下了商品標題改寫的難題。像英爵倫這樣的中國品牌,不用擔憂Lazada上的東南亞買家會由於看不懂標題,而放棄購買商品。
今年5月,阿里巴巴正式上線對話實時翻譯功能,這也是全球電商領域的首個實時翻譯AI產品。「無障礙的跨語言溝通明顯增長了阿里巴巴國際站的用戶粘性。咱們指望賣家再也不須要爲了作某一個國家的生意而專門聘請會那國語言的專職人員。」李兮芝說。除了用戶體驗的提升,阿里機器翻譯還爲旗下國際電商平臺帶來了明顯的流量、轉化率和購買率增加。
阿里巴巴實時翻譯系統
「機器翻譯是塊很是難啃的骨頭。但若是咱們真要實現全球買、全球賣,就必需要花精力去作。」李兮芝說。
今年5月23日,WMT2018國際機器翻譯大賽,首次參賽的阿里巴巴達摩院機器智能-NLP翻譯團隊拿下5項冠軍,包括英文-中文翻譯、英文-俄羅斯語互譯和英文-土耳其語互譯項目。
阿里巴巴達摩院機器智能-NLP翻譯團隊
做爲全球最具權威、已舉辦13次的機器翻譯大賽,WMT(Workshop on Machine Translation)成爲了各大科技公司和學術機構的競技場。2018年的大賽競爭格外激烈,吸引了霍普金斯大學、愛丁堡大學、微軟、阿里、騰訊、小牛翻譯等幾十個機器翻譯團隊參與。
「WMT大賽的文本主要是新聞題材,參賽團隊要在截止日期內上傳機器翻譯的成果。」駱衛華說。競爭很激烈,整個行業提高也特別快,例如在競爭最激烈的英中翻譯任務,去年最好的成績在今年可能已經排不到前幾名了。
「中英翻譯還好,起碼咱們知道哪裏翻得有問題。但像土耳其、俄羅斯語這樣的小語種,咱們徹底看不懂,只能徹底拼算法、拼模型。」駱衛華說,在小語種機器翻譯領域,之前一直是由國外的公司與科研機構一直保持領先地位。「小語種的雙語語料是很稀缺的,但阿里全球化的目標要求咱們必須從技術層面作突破,用更少的數據,在專業領域上翻得更準確。」
談到機器翻譯和人工翻譯的關係,駱衛華和李兮芝都贊同一個觀點:阿里的機器翻譯最終的目的,不是爲了替代專業,而是爲了解放專業的人工翻譯。
隨着機器翻譯技術的不斷突破,傳統人工翻譯正逐漸變爲一個「搬磚」行業,充斥着大量重複低效的勞動。「1995年,翻譯一篇1000字的中到英文本,譯員的收入可達600元人民幣。」李兮芝說,但在今天,一樣字數的文本,甚至低到只有50元的收入。
低廉的人工翻譯報酬,正在把專業譯員推向價格更高的專業技術翻譯領域。然而,這些領域的文本,由大量專業術語和範式行文構成。「人類不擅長記憶專業詞彙,但機器擅長。」李兮芝說,人工翻譯的長處在於「創造性的智慧」,以及對文化背景的深入瞭解。「翻譯講究信達雅,機器目前最多能作到‘信’和‘達’,像文學翻譯、口語俚語、本地化的慣用表達等等,仍是須要人工翻譯。」駱衛華說。
今年1月,阿里巴巴國際站向平臺全部供應商,免費開放了一款AI實時翻譯系統。商家輸入的語音或文字,能自動轉變爲翻譯好的目標文本。爲了加強翻譯的準確性,加入人工修正的干預功能。好比,商家若是有更地道的表達方式,能夠進行翻譯訂正,以彌補神經網絡翻譯系統現階段存在的問題。
下一步,阿里機器翻譯在迭代優點電商場景的同時,還將向新的領域拓展,同時完善產品矩陣,支持文本、語音和圖像等多模態翻譯,並最終對外開放API。「咱們但願把阿里巴巴全球化過程當中的經驗沉澱下來,最後打包輸出,賦能給整個社會。讓商業沒有語言障礙,讓天下沒有難作的生意。」李兮芝說。
本文做者:劉卓然
本文來自雲棲社區合做夥伴「阿里研究院」,如需轉載請聯繫原做者。