【深度學習】語音識別之CTC算法原理解釋與公式推導

不搞語音識別得人開這個論文確實有點費勁,結合上圖,思考一下語音識別的場景,輸入是一段錄音,輸出是識別的音素, 輸入的語音文件的長度和輸出的音素個數之間沒有一一對應關係,通常將語音文件「分片」之後,會出現多對一的關係。這個場景在「翻譯問題」和「OCR問題」中也普遍存在。 本文的特點是,提出來一種end-to-end的方法,直接將語音轉問音素。不需要添加規則/後處理等過程。 文章目錄 [隱藏] 1 幾
相關文章
相關標籤/搜索