DLNLP學習筆記05（Speech Recognition: RNN-T模型）

時間 2021-01-17

標籤 NLP 简体版

原文原文鏈接

1 RNA (Recurrent Neural Aligner)，在CTC的輸出端將線性分類器換成RNN，使得每一次token的輸出都會參考前一刻輸出的信息。問題：RNA和CTC都是一個輸入對應一個輸出，不能進行一個輸入對應多個輸出。例如，th爲兩個token，但輸入可能只有一個（th的發音很短，只有一個音，使得輸入的語音爲一個輸入單位）。 2 RNN Transducer（輸入端）：輸入與輸出

>>阅读原文<<