(1)分析前提:編碼
(2)結構圖回顧:spa
(3)公式回顧:3d
\[ \vec{\tilde{h}_t^l} = \sum_{i=0}^{N}\vec{a_i^l}\odot\vec{h_{t-i}^l},in...vFSMN \]blog
\[ A^l =\{ \vec{a_0^l},\vec{a_1^l},...,\vec{a_N^l}\},in...vFSMN \]class
\[ \vec{h_t^{l+1}} =f(W^l\vec{h_t^l}+\tilde{W}^l\vec{\tilde{h}_t^l} +\vec{b^l} ) \]im
(4)參數規模分析img
由第一個公式和第二個,可知這一部分的參數規模爲:n × tdi
由第三個公式,可知這一部分的參數規模爲:n × n + n × nco
因此總的參數規模爲:n × n + n × n + n × tdisplay
(1)分析前提:
(2)結構圖回顧:
(3)公式回顧:
\[ \vec{p_t^l} =V^l\vec{h_t^l}+\vec{b^l} \]
\[ \vec{\tilde{p}_t^l} = \vec{p_t^l}+\sum_{i=0}^{N}\vec{a_i^l}\odot \vec{p_{t-i}^l} \]
\[ \vec{h_t^{l+1}} =f(U^l\vec{\tilde{p}_t^l} +\vec{b^l} ) \]
(4)參數規模分析
由第一個公式和假設,可知這一部分的參數規模爲:x × n
由第二個公式,可知這一部分的參數規模爲:x × t
由第三個公式,可知這一部分的參數規模爲:x × n
因此總的參數規模爲:n × x + n × x+ x × t
FSMN的參數規模爲:n × n + n × n + n × t
cFSMN的參數規模爲:n × x + n × x+ x × t
因此:cFSMN相比於FSMN,減小的參數規模爲: (2n+t) × (n-x)
進一步的,實際上n很大,能夠忽略t的影響,因此上式能夠近似爲:2n × (n-x)
能夠看到,若是取x爲n的一半,較少的參數規模就是n2
近似分析的結果,就是參數規模能夠減小的量級爲:O(n2)