【深度學習】語音識別之CTC算法原理解釋與公式推導

時間 2020-12-30

標籤 CTC 語音識別简体版

原文原文鏈接

不搞語音識別得人開這個論文確實有點費勁，結合上圖，思考一下語音識別的場景，輸入是一段錄音，輸出是識別的音素，輸入的語音文件的長度和輸出的音素個數之間沒有一一對應關係，通常將語音文件「分片」之後，會出現多對一的關係。這個場景在「翻譯問題」和「OCR問題」中也普遍存在。本文的特點是，提出來一種end-to-end的方法，直接將語音轉問音素。不需要添加規則/後處理等過程。文章目錄 [隱藏] 1 幾

>>阅读原文<<