端到端語音識別（四） raw wavform

時間 2019-12-09

標籤語音識別 raw wavform 简体版

原文原文鏈接

如今的端到端語音識別的第一個「端」大部分仍是使用人爲設定的語音特徵，好比FBANK/PLP，更高級的端到端語音識別輸入是語音波形，輸出是文字。近幾年也有一些工做是使用神經網絡（好比CNN）來學習傳統的特徵提取步驟，取得了跟使用傳統的語音特徵至關的結果，當前這部分工做絕大多數仍是基於傳統的HMM框架來作，尚未跟CTC或者encoder-decoder相結合。web CNN Google[1]分析了

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。