LSTM 的幾種改進方案

在前面咱們很細緻地介紹了基本 LSTM 的理論,其實學者們還提出了多種 LSTM 的變種,如 Coupled LSTM、Peephole LSTM、GRU 等等,今天就來看看其中兩個比較流行的變體 Peephole connections 和 GRU,它們均可應對梯度消失問題,也均可用於構建深度神經網絡,此外咱們還會學習一個高效的搜索策略 Beam Search網絡

首先來回顧一下 LSTM 的結構:學習

LSTM 有三個門控,還有一個長期狀態 C。blog

數學表達爲:ci

$ i_t = \sigma (W_i h_{t-1} + U_i x_{t} + b_i)$ $ o_t = \sigma (W_o h_{t-1} + U_o x_{t} + b_o)$ $ f_t = \sigma (W_f h_{t-1} + U_f x_{t} + b_f)$ get

$ \tilde{C}_t = \tanh (W_C h_{t-1} + U_C x_{t} + b_C)$ $ C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C}_t $ input

$ h_t = o_t \circ \tanh{C_t}$ 數學

$ y_t = h_t$ io

其中:入門

  • f:forget,遺忘門,負責控制是否記憶過去的長期狀態。
  • i:input,輸入門,負責控制是否將當前時刻的內容寫入長期狀態。
  • o&#
相關文章
相關標籤/搜索