DLNLP學習筆記05(Speech Recognition: RNN-T模型)

1 RNA (Recurrent Neural Aligner),在CTC的輸出端將線性分類器換成RNN,使得每一次token的輸出都會參考前一刻輸出的信息。 問題:RNA和CTC都是一個輸入對應一個輸出,不能進行一個輸入對應多個輸出。例如,th爲兩個token,但輸入可能只有一個(th的發音很短,只有一個音,使得輸入的語音爲一個輸入單位)。 2 RNN Transducer(輸入端):輸入與輸出
相關文章
相關標籤/搜索