強大的端到端語音識別框架—RNN-T

時間 2021-01-17

原文原文鏈接

前言：基於聯結時序分類(CTC)的聲學模型不再需要對訓練的音頻序列和文本序列進行強制對齊，實際上已經初步具備了端到端的聲學模型建模能力。但是CTC模型進行聲學建模存在着兩個嚴重的瓶頸，一是缺乏語言模型建模能力，不能整合語言模型進行聯合優化，二是不能建模模型輸出之間的依賴關係。RNN-Transducer針對CTC的不足，進行了改進，使得模型具有了端到端聯合優化、具有語言建模能力、便於實現Onli