強大的端到端語音識別框架—RNN-T

前言: 基於聯結時序分類(CTC)的聲學模型不再需要對訓練的音頻序列和文本序列進行強制對齊,實際上已經初步具備了端到端的聲學模型建模能力。但是CTC模型進行聲學建模存在着兩個嚴重的瓶頸,一是缺乏語言模型建模能力,不能整合語言模型進行聯合優化,二是不能建模模型輸出之間的依賴關係。RNN-Transducer針對CTC的不足,進行了改進,使得模型具有了端到端聯合優化、具有語言建模能力、便於實現Onli
相關文章
相關標籤/搜索