谷歌發佈的Translatotron是什麼?

背景介紹

做爲中國人,學好英語這件事從小學開始就讓人苦惱,近些年隨着AI的快速發展,語言差別是否會縮小甚至被消滅成了熱門話題。在5月15日,谷歌AI在博客平臺發出一篇文章,正式介紹了一款能保留原聲的「同聲傳譯」黑科技,消息一出,迅速席捲網絡,爲科技發燒友帶來了更多曙光,下面,讓咱們來揭開這個叫作「Translatoron」的神祕面紗。網絡

Translatotron的出現

目前市面經常使用的語音翻譯產品的翻譯過程包含三個步驟,首先將語音轉換爲文字,再由機器將文字轉換爲目標語言文字,最後將目標語言的文字轉化爲語音(文字轉語音全稱Text-To-Speech,也叫TTS)。框架

而谷歌的Translatotron有很大不一樣,它經過某種手段實現了語音到語音的直接轉譯,避免了上述的三個步驟。除此以外,它還有一些其它的優點,好比更快的推理速度、更容易識別不須要翻譯的名稱及專業名詞等,最牛的是它能夠保留原說話人的聲音特徵,作到原聲輸出其它語言,幻想一下用本身的聲音說出了連本人都聽不懂的外語,是否是有點像《流浪地球》中的同聲翻譯,多刺激啊,在此向大劉致敬!學習

Translatotron的原理

其實端到端的語音翻譯在2016年就出現了,當時研究者們發現用「序列到序列模型」來作「語音到文字」的翻譯可行性很高,到了2017年,研究者們證實出它果真很吊,可是這還不夠,Translatotron的出現又向你們證實了「序列到序列模型」不只能夠轉文字,還能夠不依賴任何中間文本,直接幫你轉爲語音。編碼

上面部分的名詞有些含糊不清,這裏來解釋一下,首先是端到端學習,英文名爲end-to-end,它就像一個黑盒子,人們把數據丟進去後只關心結果是否與指望的結果一致,不關心中間的實現過程。這個黑盒子的實現原理是,當結果和指望的結果出現偏差後,它會將偏差反傳回訓練模型的每一環節,讓它們根據偏差來自我調節,直到結果與預期相符爲止。加密

序列到序列模型,英文爲Sequence to Sequence,它是端到端理念的一種實現框架,最先出現於Bengio在2014年的論文,Bengio是蒙特利爾大學的教授,他與另外兩位朋友被AI領域的人戲稱爲「加拿大黑手黨」。翻譯

「序列到序列」模型的目的是「將一個領域(好比中文)的序列轉化爲另外一個領域(好比英文)的序列」,它是經過聯合兩個循環神經網絡(RNN)來實現的,而聯合的這種結構又被叫作編碼-解碼(Encoder-Decoder)結構,結構的兩端支持多種數據類型,好比文字、語音、圖像、視頻等,很是適用於機器翻譯。3d

Translatotron正是利用了圖像這種數據類型,它經過聲譜圖做爲輸入,再生成出目標語言的聲譜圖,而後經過一個叫作Vocoder的語音編解碼器(用於分析和合成用於音頻數據壓縮,多路複用,語音加密,語音轉換等的人類語音信號)將新生成的光譜圖轉換爲時域波形(一種表達信號與時間關係的波浪形狀)。另外,它還能夠選擇使用一個編碼器在合成翻譯語音中維護原來的語音特徵。 code

這項研究是由谷歌大腦、谷歌翻譯和谷歌語音團隊共同完成的,因爲目前的訓練數量較少,Translatotron所展現出的翻譯質量以及原聲匹配度沒有預想中那麼好,但隨着更多數據的訓練相信會有很是光明的前景。感興趣的同窗能夠去官方博客瞭解一下。 cdn

若是你願意,讓我來幫你關注那些可能不知道又想知道卻想不到的知識。視頻

相關文章
相關標籤/搜索