Phoneme:發音的基本單位(類似於音標)
需要一個lexicon記錄word與phonemes的對應關係:
Grapheme:書寫的基本單位
中文:一個字
英文:26個英文單詞
無需lexicon的映射關係
word:詞
不同語言的詞彙都非常的多
-morpheme:有意義的基本單位(長度在word和grapheme之間)
例如unbreakable的morepheme可以拆分成:「un」 「break」 「able」 三個morepheme
但是morpheme的獲得比較麻煩,需要語言學家或者統計的方式獲得
目前這四種輸出的佔比爲:可以看出用grapheme和phoneme的佔據了70%以上
2. 語音識別的輸入
通常語音識別的輸入可以看成長度是T,維度是d的向量集合。
如下圖:
對於一段聲音信號:首先會經過一個window(25ms)得到一個向量,再經過採樣、(39-dim)MFCC或者(80-dim)fbank:
LAS:由三個部分組成Listen、Attend、Spell
因爲一個窗口的語音信號非常的短(10ms),很有可能這段acoustic features包含的信息非常少,因此ctc加入了一個空符號代表一個不知道該輸出什麼。
目前CTC通常用在decoder中,其主要解決的問題是輸入的音頻特徵與輸出token的對齊問題alignment。
CTC的問題:CTC的decoder的每個輸出是獨立地,並且只輸入了一個向量。
解決CTC出現的兩個問題,提出了RNA模型,其實就是將decode的output用RNN連接起來,添加了輸出與輸出之間的依賴性。
與RNA最大的不同就是,可以當輸入一個h的時候可以持續的輸出output直到結束。
例如「th」就只有一個發音但是卻有兩個字母。
此外爲了方便訓練RNN-T在output之上又加入了一層RNN,去忽略產生爲空的output