FixedAffineComponent:類 LDA-like 的非相關轉換,由標準的 weight matrix plus bias 組成(即Wx+b),經過標準的 stochastic gradient descent(非minibatch SGD?) 訓練而來,使用 global learning rate網絡
AffineComponentPreconditionedOnline:爲 FixedAffineComponent 的一種提煉,訓練過程當中不只使用global learning rate,還使用 matrix-valued learning rate(矩陣形式的學習率)來預處理梯度降低。參見 dnn2_preconditioning。app
PnormComponent:爲非線性,傳統的神經網絡模型中使用 TanhComponentiphone
NormalizeComponent:用於穩定訓練 p-norm 網絡,它是固定的,非可訓練,非線性的。它不是在個別 individual activations(即個別結點的激活) 上起做用,而是對單幀的整個 vector 起做用,從新使它們單位標準化。ide
SoftmaxComponent:爲最終的非線性特徵,便於輸出標準機率學習
SpliceComponent: 定義了完成 feature-frame-splicing 的窗口尺寸spa
FixedAffineComponent:類 LDA-like 的非相關轉換,由標準的 weight matrix plus bias 組成(即Wx+b),經過標準的 stochastic gradient descent(非minibatch SGD?) 訓練而來,使用 global learning ratecomponent
AffineComponentPreconditionedOnline:爲 FixedAffineComponent 的一種提煉,訓練過程當中不只使用global learning rate,還使用 matrix-valued learning rate(矩陣形式的學習率)來預處理梯度降低。參見 dnn2_preconditioning。orm
PnormComponent:爲非線性,傳統的神經網絡模型中使用 TanhComponentip
NormalizeComponent:用於穩定訓練 p-norm 網絡,它是固定的,非可訓練,非線性的。它不是在個別 individual activations(即個別結點的激活) 上起做用,而是對單幀的整個 vector 起做用,從新使它們單位標準化。ci
SoftmaxComponent:爲最終的非線性特徵,便於輸出標準機率
-
SigmoidComponent
-
TanhComponent
-
PowerComponent
-
SoftmaxComponent
-
LogSoftmaxComponent
-
RectifiedLinearComponent
-
NormalizeComponent
- 歸一化層,對輸入進行歸一化。網絡訓練過程當中,輸入特徵是一個mini-batch,即包含多個特徵向量的矩陣。歸一化層會對這個mini-batch進行歸一化。該組員只有一個參數,與目標訓練集無關。
- 用於穩定訓練 p-norm 網絡,它是固定的,非可訓練,非線性的。它不是在個別 individual activations(即個別結點的激活) 上起做用,而是對單幀的整個 vector 起做用,從新使它們單位標準化。
-
dim
-
SoftHingeComponent
-
PnormComponent
- 該組員只有3個參數,輸入輸出位數依賴於上下層,參數p是固定的,與目標訓練集無關。
- 爲非線性,傳統的神經網絡模型中使用 TanhComponent
-
output-dim
-
輸出維數通常是輸入維數是十分之一,如:
pnorm_input_dim=3000
pnorm_output_dim=300
- input-dim
- p
-
MaxoutComponent
-
ScaleComponent
-
AffineComponent
-
AffineComponentPreconditioned
-
AffineComponentPreconditionedOnline
-
SumGroupComponent
-
BlockAffineComponent
- learning-rate // optional.
- input-dim
- output-dim
- num-blocks
-
param-stddev
- parameter standard deviation,權值的標準差
- 將參數的標註差限制在一個範圍內,防止參數變化過大,該方法有利於防止over-fitting
-
bias-stddev
- bias standard deviation,偏置的標準差
- 將偏置的標準差限制在一個範圍內,防止偏置變化過大,該方法有利於防止over-fitting
-
BlockAffineComponentPreconditioned
- learning-rate // optional.
- alpha //Precondition
- input-dim
- output-dim
- num-blocks
-
param-stddev
- parameter standard deviation,權值的標準差
- 將參數的標註差限制在一個範圍內,防止參數變化過大,該方法有利於防止over-fitting
-
bias-stddev
- bias standard deviation,偏置的標準差
- 將偏置的標準差限制在一個範圍內,防止偏置變化過大,該方法有利於防止over-fitting
-
PermuteComponent
-
DctComponent
- dim
- dct-dim
- reorder
- dct-keep-dim
-
FixedLinearComponent
-
FixedAffineComponent
- 類 LDA-like 的非相關轉換,由標準的 weight matrix plus bias 組成(即Wx+b),經過標準的 stochastic gradient descent(非minibatch SGD?) 訓練而來,使用 global learning rate
- matrix
-
FixedScaleComponent
- 固定激活重調組員
- 該組員位於SoftmaxComponent以前,維數與SoftmaxComponent相同,都是Senone的個數,該組員的參數是一個先驗機率向量,其中第i個元素是第i個Senone在全部對齊($alidir/ali.*.gz)中出現的機率(Senone i出現次數/全部Senone全部出現次數)
- scales,先驗機率參數,須要從對齊($alidir/ali.*.gz)和模型($alidir/final.mdl)中獲取
-
FixedBiasComponent
-
SpliceComponent
- 對輸入特徵進行左右展開,目的是爲了讓網絡可以獲取到幀間特徵的關聯性。例如我要識別當前幀是哪一個triphone,我能夠將當前幀以前5幀和當前幀之後5幀一塊兒構成一個由11個幀組成的特徵做爲網絡輸入。
- 定義了完成 feature-frame-splicing 的窗口尺寸
- input-dim
- context
- left-context
- right-context
- const-component-dim = 0
-
SpliceMaxComponent
- dim
- context
- left-context
- right-context
-
DropoutComponent
- dim
- dropout-proportion
- dropout-scale
-
AdditiveNoiseComponent
-
Convolutional1dComponent
-
MaxpoolingComponent
- 池化層Component,該層會對卷積的特徵進行最大化池化,即在一個範圍內(池化面積)從同一個卷積核的輸出選取最大的一個做爲下一層的輸入,池化核不重疊。池化的好處除了可以降維之外,更重要的一點是可以去除輸入特徵中的一些擾動。
- input-dim
- output-dim
-
pool-size
-
pool-stride
- 池化範圍,此處與卷積層相同,會將向量轉換成矩陣進行處理。
- /*
- Input and output of maxpooling component is arranged as
- x (time), y (frequency), z (channel)
- for efficient pooling.
- */