cFSMN和FSMN參數規模對比分析

1. FSMN參數規模分析

       (1)分析前提編碼

  1. 假設隱藏層單元規模都爲n
  2. 只分析前向t個時刻的結構,即暫時不考慮雙向的結構
  3. 只分析向量係數編碼,即vFSMN,暫時不考慮sFSMN

       (2)結構圖回顧spa

       (3)公式回顧3d

\[ \vec{\tilde{h}_t^l} = \sum_{i=0}^{N}\vec{a_i^l}\odot\vec{h_{t-i}^l},in...vFSMN \]blog

\[ A^l =\{ \vec{a_0^l},\vec{a_1^l},...,\vec{a_N^l}\},in...vFSMN \]class

\[ \vec{h_t^{l+1}} =f(W^l\vec{h_t^l}+\tilde{W}^l\vec{\tilde{h}_t^l} +\vec{b^l} ) \]im

       (4)參數規模分析img

由第一個公式和第二個,可知這一部分的參數規模爲:n × tdi

由第三個公式,可知這一部分的參數規模爲:n × n + n × nco

因此總的參數規模爲:n × n + n × n + n × tdisplay



2. cFSMN參數規模分析

       (1)分析前提

  1. 與FSMN的分析前提徹底一致
  2. 假設投影層的投影矩陣是x × n維的

       (2)結構圖回顧

       (3)公式回顧

\[ \vec{p_t^l} =V^l\vec{h_t^l}+\vec{b^l} \]

\[ \vec{\tilde{p}_t^l} = \vec{p_t^l}+\sum_{i=0}^{N}\vec{a_i^l}\odot \vec{p_{t-i}^l} \]

\[ \vec{h_t^{l+1}} =f(U^l\vec{\tilde{p}_t^l} +\vec{b^l} ) \]

       (4)參數規模分析

由第一個公式和假設,可知這一部分的參數規模爲:x × n

由第二個公式,可知這一部分的參數規模爲:x × t

由第三個公式,可知這一部分的參數規模爲:x × n

因此總的參數規模爲:n × x + n × x+ x × t



3. 對比

FSMN的參數規模爲:n × n + n × n + n × t

cFSMN的參數規模爲:n × x + n × x+ x × t

因此:cFSMN相比於FSMN,減小的參數規模爲: (2n+t) × (n-x)

進一步的,實際上n很大,能夠忽略t的影響,因此上式能夠近似爲:2n × (n-x)

能夠看到,若是取xn的一半,較少的參數規模就是n2

近似分析的結果,就是參數規模能夠減小的量級爲:O(n2)

相關文章
相關標籤/搜索