Listen, Attend and Spell閱讀筆記

摘要         作者展示了一種語音識別神經網絡Listen, Attend and Spell。listen爲一個金字塔形的RNN encoder網絡,將聲音信號的filter bank特徵作爲輸入,speller爲一個基於attention機制的RNN decoder網絡,將文字字符作爲輸出。本網絡不包含發音字典或者語言模型,在Google 語音搜索人物誌,獲得了14.1%的WER,使用語
相關文章
相關標籤/搜索