CTC理解

原文:https://distill.pub/2017/ctc/ 考慮語音識別。我們有一個音頻剪輯和相應轉錄本的數據集。不幸的是,我們不知道文本中的字符如何與音頻對齊。這使得訓練語音識別器比乍看起來要困難。沒有這種對齊,我們就無法使用簡單的方法。我們可以設計一個規則,比如一個字符對應十個輸入。但是人們的語速不同,所以這類規則總是可以打破的。另一種選擇是手動對齊每個字符在音頻中的位置。從建模的角度來
相關文章
相關標籤/搜索