對國際化企業來講語言問題是亟待突破的重要關口。面對海量的文本翻譯任務,昂貴低效的人工翻譯顯然不能知足需求,利用計算機自動進行文本翻譯的機器翻譯纔是解決這個問題的關鍵。阿里翻譯團隊在機器翻譯領域作了大量技術儲備,並針對咱們所處的電子商務領域進行算法優化,進而打造阿里巴巴本身的機器翻譯平臺。算法
目前阿里翻譯API已經正式上線阿里雲平臺,讓全部的阿里雲用戶能夠申請使用阿里翻譯的最新技術成果啦,今天就讓咱們一塊兒進入機翻黑科技時間-解密阿里翻譯。數據庫
阿里翻譯積極助力集團國際化、全球化業務,不只在電商業務場景有着紮實的積累和優質的服務能力,同時也在不斷拓展創新業務場景,藉助AI技術賦能產品和服務。後端
目前已爲集團內十幾條業務線提供機器翻譯和本地化支持,覆蓋了Alibaba.com 、 AliExpress 、 Lazada 、釘釘、阿里雲、優酷、支付寶、菜鳥、天貓精靈、高德、飛豬等衆多產品。緩存
1.1跨境電商解決方案網絡
阿里機器翻譯深刻剖析「網站/APP本地化」、「引流拉新」、「到站搜索」、「用戶轉化」、「支付物流」、「留存復購」等全鏈路環節,提供多類的翻譯和語言服務,積極提高業務價值。架構
如下是部分鏈路環節介紹:併發
1.1.1搜索翻譯機器學習
跨境電商中目前搜索引擎主要基於英文作索引,須要將本地用戶輸入的搜索詞進行語種識別而後再翻譯成英文,經過英文進行索引匹配,返回搜索結果,這是保障多語言流量轉化率的關鍵環節,直接影響多語言電商GMV。異步
除跨語言搜索翻譯外,目前阿里翻譯在搜索自動化上支持完整的人工解決方案,可以針對電商平臺高流量top search query快速提供人工語種識別&翻譯結果,干預生效,同時挖掘搜索業務低轉化的badcase search query並快速人工修正翻譯結果的能力,快速提高轉化指標。分佈式
1.1.2商品翻譯
跨境電商中須要對全站商品信息進行多語言化,包括商品標題、商品詳情、商品評論等內容進行翻譯。其中商品標題是用戶獲取商品信息的重要途徑,在商品標題翻譯場景上,經過對源語言是中文或者英文的標題進行NER識別,並根據不一樣業務方的業務規則對識別後的標題根據成分進行從新改寫生成,改寫後再翻譯成目標語種。對商品的購買轉換率有很是重要的影響。
商品詳情是用戶閱讀商品信息的主要內容,包括商品屬性、商品描述等信息,商品屬性是商品的關鍵信息,機器翻譯系統會經過翻譯記憶將關鍵信息進行高質量存儲提升翻譯準確率,這部份內容可以幫助用戶更好的瞭解商品各類規格材質,有效幫助用戶進行購買決策。
因爲網站買家來自全球各地,因此用戶對商品的評價信息也是來自多國多語言,網站提供選項將多語言評論信息勾選統一翻譯成英文的功能,幫助買家更好了解其餘買家對商品的評價反饋信息。
1.1.3溝通翻譯:
網站買賣家都是來自世界各地,因此對商品的基本信息,售前諮詢,售後服務都須要進行基本的語言溝通,這是翻譯最基本的應用場景,經過提供實時機器翻譯同時可以對翻譯結果進行後編輯,提高翻譯後譯文的質量。能夠幫助電商網站大大提高購買轉化和售後投訴等等問題。
1.2網站國際化解決方案
阿里翻譯目前服務集團內數十個業務方的產品國際化及本地化需求,支持數十種語言的人工精翻,實現網站本地化的標準化、自動化、中臺化。
1.3 人機結合翻譯解決方案
目前現有機器翻譯質量還不完美的前提下,對於一些對質量要求極高的內容經過適當加入人工翻譯的力量能夠快速達成業務目標,目前阿里翻譯擁有上百家語言供應商和數十萬我的譯者的龐大翻譯資源,能夠針對重點商品進行高效快速的低成本人工翻譯,對快速啓動新業務起到了不可或缺的做用。
1.4創新服務場景解決方案
阿里翻譯沉澱了優質的跨境語料數據庫,充分利用先進的機器翻譯算法技術和海量的數據資源,深度打磨機器翻譯質量和產品體驗,並積極拓展機器翻譯業務的產品形態,將各項機器翻譯技術產品化,如語音翻譯、會場同傳、實時溝通等新產品和服務形態。
阿里巴巴實時語音翻譯,於18年初隨阿里AI軍團一同出征美國CES(國際消費電子展),在拉斯維加斯精彩亮相,成功吸引了國內外衆多媒體和觀衆的目光。
在線上快速發展以及隨着集團開始全面國際化的背景下,阿里機器翻譯平臺通過多年的打磨逐漸造成本身的體系。
2.1高性能高併發服務能力
當前在線機器翻譯系統提供SMT和NMT兩種翻譯模型,近兩年來因爲硬件計算能力的大幅提高和深度機器學習的普遍使用,在翻譯質量上NMT翻譯質量已經遠超傳統的SMT模型,不過NMT在計算上的複雜使得NMT在速度上也遠慢於SMT。NMT解碼速度的提高是系統提供高吞吐,低延遲服務的關鍵。
2.1.1 分佈式並行翻譯
當前機翻平臺承接的業務至關大的一部分翻譯需求爲大本文和網頁,將這些請求按照對應的格式進行結構化的解析,而後經過分句模型把篇章級的請求分隔爲句子級別,而後再分佈式批量調用解碼服務,這樣不只能大幅提升分佈式緩存的命中率,環節性能壓力同時也能大幅下降長文本的翻譯延遲。
2.1.2 Inference優化
今年NMT已經成了翻譯行業的一個標配,隨着這種技術的普及也給系統性能帶來了新的挑戰。這一年多基於GPU的NMT優化極大的提升了系統的解碼速度,對系統的解碼速度有數倍的提高。
2.1.3 SMT和NMT混合解碼
根據實際業務場景,咱們發如今處理商品頁的時候會出現大量短句,並且這些短句的NMT翻譯結果還不如SMT的翻譯結果,因此在調用decoder前經過一個策略模塊來決策調用SMT或者NMT,從而減小NMT的吞吐量,極大的減小了GPU資源的消耗同時也提高了翻譯質量。
2.2 服務全球化以及高可用的保障
2.2.1 全球多機房部署
阿里集團的涉及到的多語言翻譯業務需求遍及全球,爲了更好的支持不一樣地域的翻譯需求同時能儘可能減少因爲地域帶來的訪問延遲,翻譯平臺實現了全球中國、俄羅斯、美國、新加坡多機房部署。 不只實現了單地域的多機房容災同時還支持跨地域全球容災。
2.2.2 多場景差別化支持
阿里翻譯接入的場景比較多狀況也比較複雜,不一樣的應用場景對系統的要求也不盡相同,因此針對不一樣的應用場景實現了同步和異步兩套處理機制,架構上實現兩種不一樣的對外接口,可是機翻引擎保持同一套代碼同一套服務,
同步:
接收到請求後實時的調用後端引擎,可以作到實時返回,用於對rt要求高的場景,另外經過多級緩存進一步的提升吞吐量和下降rt。
異步:
大文本商品翻譯和離線翻譯場景。經過metaq消息隊列實現異步化,經過不一樣的消息隊列來對應用設置不一樣的優先級,使用信號量來控制不一樣隊列消費的線程數,動態的解決翻譯熱點時消息堆積問題。
2.3 Transformer 新型神經網絡結構
阿里機器翻譯基於業界最新的Transformer結構進行了網絡結構的改進和對詞語位置信息的充分利用,全面改進了機器翻譯的性能。
2.4 多模態服務能力
現階段的機器翻譯已不只僅侷限於文字到文字的翻譯, 多模態的翻譯已成爲發展趨勢。將多模態的信息如語音、圖像、類目等經過神經網絡進行融合,並利用Attention機制將信息加以聚焦,能夠得到良好的效果。阿里翻譯實時語音翻譯demo在雲棲大會、CES展會上都有亮眼的表現。
介紹了技術能力和如此廣闊的應用場景,接下來詳細介紹下咱們到底應該如何接入使用?
一、打開阿里雲主頁(https://www.aliyun.com),在導航欄選擇產品-人工智能-機器翻譯,進入天然語言處理頁面選擇開通服務
二、勾選閱讀並贊成協議,單擊當即開通
三、進入天然語言處理控制檯,選擇購買資源包
四、購買對應的資源包,購買量越大單價越便宜。
五、購買完成後就能夠進行調用了。可在API調試界面進行調試
六、機器翻譯調用說明文檔
七、代碼調用示例
八、代碼調用失敗示例,查看錯誤信息
爲了更好地迎接國際化帶來的挑戰, 阿里翻譯團隊在將來還有着很大的想象空間,在翻譯模型上會向「統一化,多任務化,多模態化」方向發展,產品形態上除了目前基於文本的翻譯外,會擴展跟多模態的翻譯產品,例如語音翻譯、圖像翻譯等領域,同時仍是針對具體應用場景例如搜索、實時溝通、旅遊推出相關接口服務,在服務部署上也會針對客戶需求推出定製化私有化部署的能力,助力企業解決國際化過程當中的語言問題。
瞭解更多阿里雲AI產品請戳:http://click.aliyun.com/m/100...
本文做者:雲攻略小攻
本文爲雲棲社區原創內容,未經容許不得轉載。