端到端語音識別(四) raw wavform

如今的端到端語音識別的第一個「端」大部分仍是使用人爲設定的語音特徵,好比FBANK/PLP,更高級的端到端語音識別輸入是語音波形,輸出是文字。 近幾年也有一些工做是使用神經網絡(好比CNN)來學習傳統的特徵提取步驟,取得了跟使用傳統的語音特徵至關的結果,當前這部分工做絕大多數仍是基於傳統的HMM框架來作,尚未跟CTC或者encoder-decoder相結合。web CNN Google[1]分析了
相關文章
相關標籤/搜索