Listen, Attend and Spell閱讀筆記

時間 2021-01-17

原文原文鏈接

摘要作者展示了一種語音識別神經網絡Listen, Attend and Spell。listen爲一個金字塔形的RNN encoder網絡，將聲音信號的filter bank特徵作爲輸入，speller爲一個基於attention機制的RNN decoder網絡，將文字字符作爲輸出。本網絡不包含發音字典或者語言模型，在Google 語音搜索人物誌，獲得了14.1%的WER，使用語

>>阅读原文<<