Direct speech-to-speech translation with a sequence-to-sequence model

本篇詳細介紹了Google Translate的新技術,從音頻直接翻譯音頻。這個模型叫做S2ST(speech-to-speech translation)。原理是通過一個語音的聲譜圖映射到另一種語音的聲譜圖。 Abstract 我們提出了一種基於注意力的序列到序列神經網絡,它可以直接將一種語言的語音轉換成另一種語言的語音,而不依賴於中間文本表示。該網絡經過端到端的訓練,學習將語音譜圖映射成另一種
相關文章
相關標籤/搜索