LSTM 的幾種改進方案

在前面咱們很細緻地介紹了基本 LSTM 的理論，其實學者們還提出了多種 LSTM 的變種，如 Coupled LSTM、Peephole LSTM、GRU 等等，今天就來看看其中兩個比較流行的變體 Peephole connections 和 GRU，它們均可應對梯度消失問題，也均可用於構建深度神經網絡，此外咱們還會學習一個高效的搜索策略 Beam Search。網絡

首先來回顧一下 LSTM 的結構：學習

LSTM 有三個門控，還有一個長期狀態 C。blog

數學表達爲：ci

$ i_t = \sigma (W_i h_{t-1} + U_i x_{t} + b_i)$ $ o_t = \sigma (W_o h_{t-1} + U_o x_{t} + b_o)$ $ f_t = \sigma (W_f h_{t-1} + U_f x_{t} + b_f)$ get

$ \tilde{C}_t = \tanh (W_C h_{t-1} + U_C x_{t} + b_C)$ $ C_t = f_t \circ C_{t-1} + i_t \circ \tilde{C}_t $ input

$ h_t = o_t \circ \tanh{C_t}$ 數學

$ y_t = h_t$ io

其中：入門

f：forget，遺忘門，負責控制是否記憶過去的長期狀態。
i：input，輸入門，負責控制是否將當前時刻的內容寫入長期狀態。
o&#