CTC理解

時間 2020-12-23

原文原文鏈接

原文：https://distill.pub/2017/ctc/ 考慮語音識別。我們有一個音頻剪輯和相應轉錄本的數據集。不幸的是，我們不知道文本中的字符如何與音頻對齊。這使得訓練語音識別器比乍看起來要困難。沒有這種對齊，我們就無法使用簡單的方法。我們可以設計一個規則，比如一個字符對應十個輸入。但是人們的語速不同，所以這類規則總是可以打破的。另一種選擇是手動對齊每個字符在音頻中的位置。從建模的角度來