在前面咱們很細緻地介紹了基本 LSTM 的理論,其實學者們還提出了多種 LSTM 的變種,如 Coupled LSTM、Peephole LSTM、GRU 等等,今天就來看看其中兩個比較流行的變體 Peephole connections 和 GRU,它們均可應對梯度消失問題,也均可用於構建深度神經網絡,此外咱們還會學習一個高效的搜索策略 Beam Search。網絡
首先來回顧一下 LSTM 的結構:學習
LSTM 有三個門控,還有一個長期狀態 C。blog
數學表達爲:ci
$ i_t = \sigma (W_i h_{t-1} + U_i x_{t} + b_i)$ $ o_t = \sigma (W_o h_{t-1} + U_o x_{t} + b_o)$ $ f_t = \sigma (W_f h_{t-1} + U_f x_{t} + b_f)$ get
$ \tilde{C}_t = \tanh (W_C h_{t-1} + U_C x_{t} + b_C)$ $ C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C}_t $ input
$ h_t = o_t \circ \tanh{C_t}$ 數學
$ y_t = h_t$ io
其中:入門
- f:forget,遺忘門,負責控制是否記憶過去的長期狀態。
- i:input,輸入門,負責控制是否將當前時刻的內容寫入長期狀態。
- o&#