機器翻譯,是利用計算機將一種天然語言(源語言)轉換爲另外一種天然語言(目標語言)的過程。機器翻譯的的實用價值隨着經濟全球化及互聯網的飛速發展而日益提升,在促進政治、經濟、文化交流等方面起到愈來愈重要的做用。網絡
機器翻譯的應用面很廣。好比:工具
據統計,機器翻譯市場規模在17年已達450億,並以每一年10%的增率持續增加。機器翻譯天天在線翻譯量可達1000億次,需求量龐大,尤爲是在跨境業務指數增加之後,對信息互通的專業要求讓機器翻譯成爲了當下比較火熱的使用工具。優化
機器翻譯是阿里於2011年開始啓動研發的語言服務項目,目標是打造一個全球領先的電子商務機器翻譯引擎,爲集團的多語言業務提供基礎的多語言技術基礎設施。網站
阿里巴巴集團內部的跨境貿易中涉及了海量的跨語言問題,從成本、效率和實時性來說,海量的信息若是單純依賴人工翻譯徹底沒法知足需求,在這樣的背景下,機器翻譯顯得尤其重要。搜索引擎
阿里巴巴機器翻譯在整個電商完整鏈路上都提供了優質的服務能力。包括:SEO(搜索引擎優化)、搜索、商品標題、商品詳情(類目/屬性/描述)、商品評論、實時溝通、審覈風控等電商基礎數據領域,都能提供全面的實時翻譯服務能力,解決各個國家用戶對信息的基本閱讀需求。spa
阿里巴巴機器翻譯天天可以提供近十億級的在線翻譯服務,每秒提供上萬QPS(每秒查詢率)的語句翻譯能力。通過多年的沉澱,依託領先的天然語言處理技術和海量的互聯網數據優點,阿里巴巴成功上線基於注意力機制的深層神經網絡翻譯系統(NMT),幫助用戶跨越語言鴻溝,暢享交流和獲取信息,實現無障礙溝通,憑藉其海量數據積累及關鍵技術創新,在電商領域翻譯質量獨具優點。翻譯
目前,阿里巴巴機器翻譯提供阿拉伯語、俄語、法語、葡萄牙語、泰語、土耳其語、西班牙語、越南語、印尼語、英語和中文的自動語種識別和翻譯服務,支持通用場景和電商垂直場景兩大類場景,通用場景支持中英互譯,電商場景支持電商完整鏈路的各項基礎數據領域,具體包括:3d
對於跨境電商網站而言,爲每一個國家的用戶創建一套搜索引擎,成本是很大的。阿里巴巴經過統一採用基於英文的索引,將最終的用戶搜索詞轉化成爲英文,再根據英文的索引去檢索用戶所需的商品信息,如此就能夠實現多語言搜索了。blog
以下圖示,AliExpress的俄羅斯用戶用俄語搜索了「麥克風」,智能語種識別出用戶所用語言是俄語,以後調用拼寫糾錯功能。調用該功能是由於在用戶輸入檢索詞中,頗有可能出現個別單詞的錯誤,所以就須要智能拼寫糾錯功能將個別拼寫錯誤的詞糾正過來,機器翻譯再翻譯成英文版本,最後調用搜索引擎,拿到用戶想要的商品信息。這樣,一條提高用戶從List到Detail轉化率的鏈路就打通了。索引
用戶來到商品詳情頁後,會經過網站的導航找到本身想要的類目,再找到想要的商品。
用戶在看過商品標題後,每每會再看商品詳細描述,一些用戶還會看看商品評論。當用戶瀏覽商品網頁時,必須能讀懂、理解網頁內容,若是用戶不能理解,那麼頗有可能這個用戶就流失了。因此,作跨境電商十分須要將商品信息實現多語言化,讓用戶讀懂和理解這個商品究竟賣什麼?它的功能又是什麼?
下圖展示的是阿里巴巴速賣通場景下對標題部分作的工做。咱們能夠看到,商品屬於英文的原發商品,而經過翻譯能夠將其翻譯成爲不一樣國家的語言。在下圖中,一樣的一條裙子的標題除了英文以外,還被翻譯成了俄語和阿拉伯語兩個版本。
針對商品評論而言,阿里巴巴實現對同一商品不一樣語言發佈的評論進行互相翻譯。在下圖中,就是將西語原發的評論翻譯成了俄語和阿拉伯語,這樣一來,用戶就能夠參考產品的買家體驗,來增長對該產品的判斷。
在阿里速賣通中,通常而言,商家發佈版本基本上都以英文爲主。由此,機器翻譯就須要將英文原發的商品詳細描述,好比商品尺寸、質量屬性以及物流信息等都翻譯成其餘語言的版本。
最後,另外一個用戶使用比較多的功能,就是「問你們」。在速賣通,針對於「問你們」這個功能,須要將不一樣國家、不一樣語言用戶所提出的問題都翻譯成多個語言的版本,從而讓更多的人可以獲得本身所須要的信息,在下圖中,就是將俄文的問題翻譯成英文和阿拉伯語的場景。
在跨境電商場景中,商品物流有一個必須步驟,就是商品通關。在下圖中,商品是一個手機支架,但它的英文名很是長,而海關可能只但願拿到商品的關鍵信息。這時,NLP智能品名生成技術就會從一長串的標題裏抽取出關鍵詞,如圖示就抽出了「Phone Holder」關鍵詞,再把這個關鍵詞經過機器翻譯轉成中文的「手機支架」,由此海關便能迅速獲知該商品的信息,高效便捷地完成產品的通關過程。
在跨境電商貿易中,交易先後每每都有買家和賣家間的溝通。在阿里巴巴的調研中發現,其實在國際貿易中的買家中的30%是使用小語種的,而大部分買家卻每每缺乏小語種的溝通服務能力。
所以,阿里巴巴開發了一套針對於多語言實時溝通場景的自動翻譯系統。在電商場景中,首先,支持多語種之間的互譯,憑藉背後規模龐大的雙語術語庫,其對術語的翻譯是很是準確的。
其次,具備智能處理能力,能夠根據用戶的場景自動地識別其使用的語種,再根據用戶所使用的語種進行自動翻譯,而且提供基於上下文的智能糾錯,還針對口語場景作了表述歸一化的統一處理。
最後,多語言實時溝通系統還實現了跨境多語言溝通方案,這套方案支持多端包括PC、IOS、Android,可以實現多語言信息的實時溝通,用戶能夠基於機器翻譯或者譯文進行編輯。若是用戶具備相應的語言能力,能夠根據機器翻譯的結果在發送前進行編輯。在不少場景下,也須要對於特定的術語進行快速干預,將其翻譯成想要翻譯的文本,所以在這樣實時工做的場景下,也是具有支持實時干預的能力。
原文連接 本文爲雲棲社區原創內容,未經容許不得轉載。