[NLP]LSTM理解

時間 2020-08-04

標籤 nlp lstm 理解简体版

原文原文鏈接

簡介html

LSTM(Long short-term memory,長短時間記憶)是一種特殊的RNN，主要是爲了解決長序列訓練過程當中的梯度消失問題。如下先從RNN介紹。網絡

簡說RNNide

RNN(Recurrent Neural Network,循環神經網絡)是一種處理序列數據的神經網絡。下圖是它的結構：函數

從上圖能夠看出，RNN循環獲取輸入序列，並保存上一次輸入的計算結果，與當前輸入進行計算後，將計算結果輸出並保存當前的計算結果，這樣不斷循環輸入並計算，便可獲取上文信息。學習

RNN內部網絡以下圖所示，從圖中能夠看出,在神經元內部的計算過程：先將上一個神經元細胞的輸出h_t-1與當前狀態下神經元細胞的輸入x_t拼接後進行tan計算。ui

注：輸出的h_t-1(下圖中的紫色圓圈)一般是將h_t-1輸入到一個線性層(主要是進行維度映射)，而後使用softmax進行分類獲得須要的數據。具體的計算方式要看模型的使用方式。 spa

RNN優勢：它能處理序列數據，而且有記憶能力，可以利用上文信息。3d

RNN缺點：orm

梯度消失：對於獲取長距離依賴的效果不是很好(即若是上文信息離當前輸入距離太遠的話，理論上它是可以記得上文信息，可是事實上並非這樣，因此它並不能很好地處理長距離依賴問題)
梯度爆炸
RNN較難訓練

注：長距離依賴處理效果不佳的緣由是使用tanh或者relu做爲激活函數。（若是是sigmoid函數則不會）htm

LSTM結構

LSTM也是一種RNN，所以它也是一種循環結構，不一樣的是RNN神經元內部只用tan層進行計算，而LSTM是有4個全鏈接層進行計算的，LSTM的內部結構以下圖所示。

上圖中符號的含義以下圖所示，黃色方框相似於CNN中的激活函數操做，粉色圓圈表示點操做，單箭頭表示數據流向，下圖中第四個符號表示兩個向量的鏈接操做，第五個符號表示向量的拷貝操做，且上圖中的σ表示sigmoid層(該層的輸出時0-1的值，0表示不能經過，1表示能經過)。

如今來描述LSTM的內部操做，具體內容以下圖所示：

LSTM的核心是細胞狀態——最上層的橫穿整個細胞的水平線，它經過門來控制信息的增長或者刪除。

那麼什麼是門呢？門是一種用來選擇信息經過與否的方式，它由一個sigmoid層和點乘操做組成。LSTM共有三個門，分別是遺忘門，輸入門和輸出門，具體內容以下所述：

(1)遺忘門：遺忘門決定丟棄哪些信息，輸入是上一個神經元細胞的計算結果h_t-1以及當前的輸入向量x_t,兩者聯接並經過遺忘門後(sigmoid會決定哪些信息留下，哪些信息丟棄)，會生成一個0-1向量Γ^f_t(維度與上一個神經元細胞的輸出向量C_t-1相同)，Γ^f_t與C_t-1進行點乘操做後，就會獲取上一個神經元細胞通過計算後保留的信息。

(2)輸入門：表示要保存的信息或者待更新的信息，如上圖所示是h_t-1與x_t的鏈接向量，通過sigmoid層後獲得的結果Γⁱ_t，這就是輸入門的輸出結果了。

可是接下來咱們要計算該神經元細胞的輸出結果,即新細胞的更新狀態：C_t，C_t= C_t-1· Γ^f_t + Γⁱ_t· ^~c_t(其中^~c_t= tanh(h_t-1_，x_t))，文字描述是：輸入門的計算結果點乘 h_t-1與x_t的鏈接向量通過tanh層計算的結果後，再與上一個神經元細胞通過計算後保留的信息進行相加，則是最終要輸出的C_t_。

(3)輸出門：輸出門決定當前神經原細胞輸出的隱向量h_t，h_t與C_t不一樣，h_t要稍微複雜一點，它是C_t進過tanh計算後與輸出門的計算結果進行點乘操做後的結果，用公式描述是：h_t= tanh(c_t) · Γ^o_t

LSTM具體實現步驟[5]

1、首先，輸入上一個神經元細胞輸出的隱藏層向量和當前神經元細胞的輸入，並將其鏈接起來。

2、將步驟1中的結果傳入遺忘門中，該層將刪除不相關的信息。

4、一個備選層將用步驟1中的結果建立，這一層將保存可能的會加入細胞狀態的值或者說信息。

3、將步驟1中的結果傳入輸入門中，這一層決定步驟4的備選層中哪些信息應該加入到細胞狀態中去。

5、步驟2、3、4計算結束後，用這三個步驟計算後的向量和上一個神經元細胞傳出的細胞狀態向量來更新當前細胞的細胞狀態。

6、結果就被計算完了。

7、將結果和新的細胞狀態進行點乘則是當前細胞狀態的隱向量。

LSTM如何避免梯度消失與梯度爆炸

RNN中的梯度消失/爆炸與CNN中的含義不一樣，CNN中不一樣的層有不一樣的參數，每一個參數都有本身的梯度；而RNN中一樣的權重在各個時間步中共享，因此最終的梯度等於各個時間步的梯度和。所以，RNN中的梯度不會消失，它只會遺忘遠距離的依賴關係，而被近距離的梯度所主導。可是LSTM中的梯度傳播有不少條路徑，最主要的一條是當前細胞的狀態更新這一過程，該過程當中只有逐元素的相乘和相加操做，梯度流最穩定，所以基本不會發生梯度消失或者梯度爆炸；可是其餘的傳播路徑依然有梯度消失或者爆炸風險，而最終的梯度計算是各個梯度路徑的和，所以LSTM仍然有梯度消失或者爆炸的風險，只是這個風險被大幅下降了。