Deep Speech 2 : End-to-End Speech Recognition in English and Mandarin論文筆記

時間 2021-01-02

原文原文鏈接

感想這篇文章的署名作者尤其的多，做了很多工作，從模型設計到產品不熟，還實現了一個GPU版本的CTC，CTC可以說是這篇文章的核心部分，沒有它，就沒有端到端的訓練，作者還用到了雙向神經網絡，對GPU並行都做了相應的定製化優化，涉及的很全，算法比較實驗也很全，大多都是很人類水平比較。介紹數十年的手工工程領域知識已經融入到了最新的自動語音識別（automatic speech recognitio