深度學習中的序列模型演變及學習筆記（含RNN/LSTM/GRU/Seq2Seq/Attention機制）

時間 2020-05-15

標籤深度學習序列模型演變筆記 rnn lstm gru seq2seq seq attention 機制简体版

原文原文鏈接

【說在前面】本人博客新手一枚，象牙塔的老白，職業場的小白。如下內容僅爲我的看法，歡迎批評指正，不喜勿噴！[認真看圖][認真看圖]html

【補充說明】深度學習中的序列模型已經普遍應用於天然語言處理（例如機器翻譯等）、語音識別、序列生成、序列分析等衆多領域！python

【再說一句】本文主要介紹深度學習中序列模型的演變路徑，和往常同樣，不會詳細介紹各算法的具體實現，望理解！git

1、循環神經網絡RNN

1. RNN標準結構

傳統神經網絡的前一個輸入和後一個輸入是徹底沒有關係的，不能處理序列信息（即前一個輸入和後一個輸入是有關係的）。github

循環神經網絡RNN解決了以上問題，總體結構如圖所示：面試

2. RNN系列結構

多對一：例如情感分析，須要多個時間步長的輸入，可是隻須要單個輸出（即實現分類）。總體結構如圖所示：算法

一對多：例如音樂生成，只須要單個輸入（即輸入類別），可是須要輸出整個序列。總體結構如圖所示：網絡

多對多：例如實時分類，輸入序列與輸出序列的長度是同樣的。總體結構如圖所示：架構

多對多：例如機器翻譯，輸入序列與輸出序列的長度是不同的。總體結構如圖所示：機器學習

2、長短時間記憶網絡LSTM

LSTM是RNN的一種變體，RNN因爲梯度消失只有短時間記憶，而LSTM網絡經過精妙的門控制，必定程度上緩解了梯度消失的問題。post

在標準RNN中，神經網絡模塊只有一個很是簡單的結構，例如一個tanh層。總體結構如圖所示：

而LSTM得神經網絡模塊具備不一樣的結構，LSTM包含遺忘門、輸入門和輸出門，增長了非線性的相互做用。總體結構如圖所示：

3、GRU

GRU是LSTM的一種變體，也是爲了解決梯度消失（即長期記憶問題）而提出來的。相較於LSTM，GRU的網絡結構更加簡單，且效果很好。

4、RNN/LSTM/GRU的變體結構

1. 雙向循環神經網絡

例如命名實體識別：判斷句子中Teddy是不是人名，若是隻從前面幾個詞是沒法得知Teddy是不是人名，若是能有後面的信息就很好判斷了。

雙向循環神經網絡中的網絡單元能夠是RNN、LSTM和GRU，均適用這種變體結構。

2. 深層循環神經網絡

顧名思義，就是多個循環神經網絡的堆疊，循環神經網絡能夠採用RNN、LSTM和GRU，均適用這種變體結構。

3. Seq2Seq架構：很是火熱

又叫Encoder-Decoder模型，適用於輸入與輸出個數不同相等的狀況（即多對多的循環神經網絡，適用於機器翻譯等場景）。

其中，Encoder編碼器和Decoder解碼器可使用RNN、LSTM和GRU，均適用這種變體結構。

同時，這種結構也能夠與雙向、深層的變體結構同時使用，不衝突的。

這裏多提一句，例如給圖像添加描述這樣的應用場景，圖中對應的描述爲「一隻貓站在椅子上」，一樣能夠採用Encoder-Decoder模型。

5、注意力機制

1. Seq2Seq + Attention機制介紹

須要注意到，LSTM、GRU、雙向變體結構、深層變體結構和Seq2Seq變體結構，只能說必定程度上緩解了梯度消失問題。

提出問題：在作機器翻譯時，專家學者們發現，在Seq2Seq結構中，Encoder把全部的輸入序列都編碼成一個統一的語義向量context，而後再由Decoder解碼。其中，context天然也就成了限制模型性能的瓶頸，當要翻譯的句子較長時，一個 context 可能存不下那麼多信息。同時，只使用編碼器的最後一個隱藏層狀態，彷佛不是很合理。

解決方案：所以，引入了Attention機制（將有限的認知資源集中到最重要的地方）。在生成 Target 序列的每一個詞時，用到的中間語義向量 context 是 Source 序列經過Encoder的隱藏層的加權和，而不是隻用Encoder最後一個時刻的輸出做爲context，這樣就能保證在解碼不一樣詞的時候，Source 序列對如今解碼詞的貢獻是不同的。例如，Decoder 在解碼"machine"時，"機"和"器"提供的權重要更大一些，一樣，在解碼"learning"時，"學"和"習"提供的權重相應的會更大一些。

實現步驟：（1）衡量編碼中第 j 階段的隱含層狀態和解碼時第 i 階段的相關性（有不少種打分方式，這裏不細講）；（2）經過相關性的打分爲編碼中的不一樣階段分配不一樣的權重；（3）解碼中第 i 階段輸入的語義向量context就來自於編碼中不一樣階段的隱含層狀態的加權和。

補充說明一下，衡量相關性的打分方式主要包括如下幾種，具體不展開了：