Direct speech-to-speech translation with a sequence-to-sequence model

時間 2020-12-29

原文原文鏈接

本篇詳細介紹了Google Translate的新技術，從音頻直接翻譯音頻。這個模型叫做S2ST(speech-to-speech translation)。原理是通過一個語音的聲譜圖映射到另一種語音的聲譜圖。 Abstract 我們提出了一種基於注意力的序列到序列神經網絡，它可以直接將一種語言的語音轉換成另一種語言的語音，而不依賴於中間文本表示。該網絡經過端到端的訓練，學習將語音譜圖映射成另一種

>>阅读原文<<