【NLP】Attention Model（注意力模型）學習總結

時間 2019-12-04

標籤 NLP attention model 注意力模型學習總結简体版

原文原文鏈接

　　最近一直在研究深度語義匹配算法，搭建了個模型，跑起來效果並非很理想，在分析緣由的過程當中，發現注意力模型在解決這個問題上仍是頗有幫助的，因此花了兩天研究了一下。html

　　此文大部分參考深度學習中的注意力機制(2017版) 張俊林的博客，不過添加了一些我的的思考與理解過程。在github上找到一份基於keras框架實現的可運行的注意模型代碼：Attention_Network_With_Keras。若有不足之處，歡迎交流指教。git

　　注意力模型：對目標數據進行加權變化。人腦的注意力模型，說究竟是一種資源分配模型，在某個特定時刻，你的注意力老是集中在畫面中的某個焦點部分，而對其它部分視而不見。 ------（思考：爲何要集中在那個部分，是由於那個部分能解決問題嗎？）github

1. 什麼是Attention機制？

　　最近兩年，注意力模型（Attention Model）被普遍使用在天然語言處理、圖像識別及語音識別等各類不一樣類型的深度學習任務中，是深度學習技術中最值得關注與深刻了解的核心技術之一。web

　　當咱們人在看同樣東西的時候，咱們當前時刻關注的必定是咱們當前正在看的這樣東西的某一地方，換句話說，當咱們目光移到別處時，注意力隨着目光的移動也在轉移，這意味着，當人們注意到某個目標或某個場景時，該目標內部以及該場景內每一處空間位置上的注意力分佈是不同的。---------（思考：對於圖片，會有些特別顯眼的場景會率先吸引住注意力，那是由於腦殼中對這類東西很敏感。對於文本，咱們大都是帶目的性的去讀，順序查找，順序讀，可是在理解的過程當中，咱們是根據咱們自帶的目的去理解，去關注的。注意力模型應該與具體的目的(或者任務)相結合。）算法

　　從Attention的做用角度出發，咱們就能夠從兩個角度來分類Attention種類：Spatial Attention 空間注意力和Temporal Attention 時間注意力。更具實際的應用，也能夠將Attention分爲Soft Attention和Hard Attention。Soft Attention是全部的數據都會注意，都會計算出相應的注意力權值，不會設置篩選條件。Hard Attention會在生成注意力權重後篩選掉一部分不符合條件的注意力，讓它的注意力權值爲0，便可以理解爲再也不注意這些不符合條件的部分。網絡

2. 先了解編碼-解碼框架：Encoder-Decoder框架

　　目前絕大多數文獻中出現的AM模型是附着在Encoder-Decoder框架下的，固然，其實AM模型能夠看做一種通用的思想，自己並不依賴於Encoder-Decoder模型，這點須要注意。Encoder-Decoder框架能夠看做是一種文本處理領域的研究模式，應用場景異常普遍，自己就值得細談。架構

圖1 抽象的Encoder-Decoder框架框架

　　Encoder-Decoder框架能夠這麼直觀地去理解：能夠把它看做適合處理由一個句子（或篇章）生成另一個句子（或篇章）的通用處理模型。對於句子對<X,Y>。 --------（思考：<X,Y>對很通用，X是一個問句，Y是答案；X是一個句子，Y是抽取的關係三元組；X是漢語句子，Y是漢語句子的英文翻譯。等等），咱們的目標是給定輸入句子X，期待經過Encoder-Decoder框架來生成目標句子Y。X和Y能夠是同一種語言，也能夠是兩種不一樣的語言。而X和Y分別由各自的單詞序列構成：函數

　　Encoder顧名思義就是對輸入句子X進行編碼，將輸入句子經過非線性變換轉化爲中間語義表示C：學習

　　對於解碼器Decoder來講，其任務是根據句子X的中間語義表示C和以前已經生成的歷史信息y1,y2….yi-1來生成i時刻要生成的單詞yi ：

　　每一個yi都依次這麼產生，那麼看起來就是整個系統根據輸入句子X生成了目標句子Y。 ------（思考：其實這裏的Encoder-Decoder是一個序列到序列的模型seq2seq，這個模型是對順序有依賴的。）

　　Encoder-Decoder是個很是通用的計算框架，至於Encoder和Decoder具體使用什麼模型都是由研究者本身定的，常見的好比 CNN / RNN / BiRNN / GRU / LSTM / Deep LSTM 等，這裏的變化組合很是多。 ------（思考：人的學習過程包括輸入、輸出、外界評價。Encoder模型相似於人的輸入學習過程，Decoder模型相似於人的輸出學習過程，對輸出的內容進行評價就相似於損失函數。英語老師給我上了幾堂英語課，我在不斷的輸入Encoder；忽然有一個隨堂測試，我得作題輸出Decoder；最後英語老師改卷子，給我一個分數，不對的地方我得反思調整我對輸入數據的加工方式。）-------（再思考：關於英語翻譯。課本上的單詞和課文是原始數據輸入，至關於X；我在大腦里加工這些數據，至關於Encoder模型，個人腦子裏有不少加工後的數據，至關於C；如今要讓我翻譯一個英語句子，這個任務至關於Y，我不能翻課本，因此我只能借助我腦殼裏加工的數據C去翻譯這個句子，即我得動腦子，至關於Decoder。學習的過程是什麼都要學，要分類整理，要增長線索，並不知道將來的某天能用到什麼，因此Encoder-Decoder是一個泛泛學習的框架）

3. Attention Model

　　以上介紹的Encoder-Decoder模型是沒有體現出「注意力模型」的，因此能夠把它看做是注意力不集中的分心模型。爲何說它注意力不集中呢？請觀察下目標句子Y中每一個單詞的生成過程以下：

　　其中f是decoder的非線性變換函數。從這裏能夠看出，在生成目標句子的單詞時，不論生成哪一個單詞，是y1,y2也好，仍是y3也好，他們使用的句子X的語義編碼C都是同樣的，沒有任何區別。而語義編碼C是由句子X的每一個單詞通過Encoder 編碼產生的，這意味着不管是生成哪一個單詞，y1,y2仍是y3，其實句子X中任意單詞對生成某個目標單詞yi來講影響力都是相同的，沒有任何區別（其實若是Encoder是RNN的話，理論上越是後輸入的單詞影響越大，並不是等權的，估計這也是爲什麼Google提出Sequence to Sequence模型時發現把輸入句子逆序輸入作翻譯效果會更好的小Trick的緣由）。這就是爲什麼說這個模型沒有體現出注意力的原因。

　　引入AM模型，以翻譯一個英語句子舉例：輸入X：Tom chase Jerry。理想輸出：湯姆追逐傑瑞。

　　應該在翻譯「傑瑞」的時候，體現出英文單詞對於翻譯當前中文單詞不一樣的影響程度，好比給出相似下面一個機率分佈值：

（Tom,0.3）（Chase,0.2）（Jerry,0.5）

　　每一個英文單詞的機率表明了翻譯當前單詞「傑瑞」時，注意力分配模型分配給不一樣英文單詞的注意力大小。這對於正確翻譯目標語單詞確定是有幫助的，由於引入了新的信息。同理，目標句子中的每一個單詞都應該學會其對應的源語句子中單詞的注意力分配機率信息。這意味着在生成每一個單詞Yi的時候，原先都是相同的中間語義表示C會替換成根據當前生成單詞而不斷變化的Ci。理解AM模型的關鍵就是這裏，即由固定的中間語義表示C換成了根據當前輸出單詞來調整成加入注意力模型的變化的Ci。

圖2 引入AM模型的Encoder-Decoder框架

　　即生成目標句子單詞的過程成了下面的形式：

　　而每一個Ci可能對應着不一樣的源語句子單詞的注意力分配機率分佈，好比對於上面的英漢翻譯來講，其對應的信息可能以下：

　　其中，f2函數表明Encoder對輸入英文單詞的某種變換函數，好比若是Encoder是用的RNN模型的話，這個f2函數的結果每每是某個時刻輸入xi後隱層節點的狀態值；g表明Encoder根據單詞的中間表示合成整個句子中間語義表示的變換函數，通常的作法中，g函數就是對構成元素加權求和，也就是經常在論文裏看到的下列公式：

　　假設Ci中那個i就是上面的「湯姆」，那麼Tx就是3，表明輸入句子的長度，h1=f(「Tom」)，h2=f(「Chase」),h3=f(「Jerry」)，對應的注意力模型權值分別是0.6,0.2,0.2，因此g函數就是個加權求和函數。若是形象表示的話，翻譯中文單詞「湯姆」的時候，數學公式對應的中間語義表示Ci的造成過程相似下圖：

圖3 Ci的造成過程

　　這裏還有一個問題：生成目標句子某個單詞，好比「湯姆」的時候，你怎麼知道AM模型所須要的輸入句子單詞注意力分配機率分佈值呢？就是說「湯姆」對應的機率分佈：

　　劃重點(注意力權重獲取的過程)（Tom,0.3）（Chase,0.2）（Jerry,0.5）是如何獲得的呢？

　　爲了便於說明，咱們假設對圖1的非AM模型的Encoder-Decoder框架進行細化，Encoder採用RNN模型，Decoder也採用RNN模型，這是比較常見的一種模型配置，則圖1的圖轉換爲下圖：

圖4 RNN做爲具體模型的Encoder-Decoder框架

　　注意力分配機率分佈值的通用計算過程：

圖5 AM注意力分配機率計算

　　對於採用RNN的Decoder來講，若是要生成 yi 單詞，在時刻 i ，咱們是能夠知道在生成 Yi 以前的隱層節點i時刻的輸出值 Hi 的，而咱們的目的是要計算生成 Yi 時的輸入句子單詞「Tom」、「Chase」、「Jerry」對 Yi 來講的注意力分配機率分佈，那麼能夠用i時刻的隱層節點狀態 Hi 去一一和輸入句子中每一個單詞對應的RNN隱層節點狀態 hj 進行對比，即經過函數 F(hj,Hi) 來得到目標單詞 Yi 和每一個輸入單詞對應的對齊可能性，這個F函數在不一樣論文裏可能會採起不一樣的方法，而後函數F的輸出通過Softmax進行歸一化就獲得了符合機率分佈取值區間的注意力分配機率分佈數值（這就獲得了注意力權重）。圖5顯示的是當輸出單詞爲「湯姆」時刻對應的輸入句子單詞的對齊機率。絕大多數AM模型都是採起上述的計算框架來計算注意力分配機率分佈信息，區別只是在F的定義上可能有所不一樣。

　　上述內容就是論文裏面經常提到的Soft Attention Model（任何數據都會給一個權值，沒有篩選條件）的基本思想，你能在文獻裏面看到的大多數AM模型基本就是這個模型，區別極可能只是把這個模型用來解決不一樣的應用問題。那麼怎麼理解AM模型的物理含義呢？通常文獻裏會把AM模型看做是單詞對齊模型，這是很是有道理的。目標句子生成的每一個單詞對應輸入句子單詞的機率分佈能夠理解爲輸入句子單詞和這個目標生成單詞的對齊機率，這在機器翻譯語境下是很是直觀的：傳統的統計機器翻譯通常在作的過程當中會專門有一個短語對齊的步驟，而注意力模型其實起的是相同的做用。在其餘應用裏面把AM模型理解成輸入句子和目標句子單詞之間的對齊機率也是很順暢的想法。

圖6 Google 神經網絡機器翻譯系統結構圖

　　圖6所示即爲Google於2016年部署到線上的基於神經網絡的機器翻譯系統，相對傳統模型翻譯效果有大幅提高，翻譯錯誤率下降了60%，其架構就是上文所述的加上Attention機制的Encoder-Decoder框架，主要區別無非是其Encoder和Decoder使用了8層疊加的LSTM模型。

固然，從概念上理解的話，把AM模型理解成影響力模型也是合理的，就是說生成目標單詞的時候，輸入句子每一個單詞對於生成這個單詞有多大的影響程度。這種想法也是比較好理解AM模型物理意義的一種思惟方式。

　　圖7是論文「A Neural Attention Model for Sentence Summarization」中，Rush用AM模型來作生成式摘要給出的一個AM的一個很是直觀的例子。

圖7 句子生成式摘要例子

　　這個例子中，Encoder-Decoder框架的輸入句子X是：「russian defense minister ivanov called sunday for the creation of a joint front for combating global terrorism」。對應圖中縱座標的句子。系統生成的摘要句子Y是：「russia calls for joint front against terrorism」，對應圖中橫座標的句子。能夠看出模型已經把句子主體部分正確地抽出來了。矩陣中每一列表明生成的目標單詞對應輸入句子每一個單詞的AM分配機率，顏色越深表明分配到的機率越大。這個例子對於直觀理解AM是頗有幫助做用。

　　《A Neural Attention Model for Sentence Summarization》論文提供的實驗數據集連接(開放可用)：DUC 2004，感興趣的朋友能夠下載看看。

圖8 摘要生成開放數據集

4. Attention機制的本質思想

　　若是把Attention機制從上文講述例子中的Encoder-Decoder框架中剝離，並進一步作抽象，能夠更容易看懂Attention機制的本質思想。

圖9 Attention機制的本質思想

　　咱們能夠這樣來看待Attention機制（參考圖9）：將Source中的構成元素想象成是由一系列的<Key,Value>數據對構成，此時給定Target中的某個元素Query，經過計算Query和各個Key的類似性或者相關性，獲得每一個Key對應Value的權重係數，而後對Value進行加權求和，即獲得了最終的Attention數值。因此本質上Attention機制是對Source中元素的Value值進行加權求和，而Query和Key用來計算對應Value的權重係數。便可以將其本質思想改寫爲以下公式：

　　其中，L_x=||Source||表明Source的長度，公式含義即如上所述。上文所舉的機器翻譯的例子裏，由於在計算Attention的過程當中，Source中的Key和Value合二爲一，指向的是同一個東西，也即輸入句子中每一個單詞對應的語義編碼，因此可能不容易看出這種可以體現本質思想的結構。

　　固然，從概念上理解，把Attention仍然理解爲從大量信息中有選擇地篩選出少許重要信息並聚焦到這些重要信息上，忽略大多不重要的信息，這種思路仍然成立。聚焦的過程體如今權重係數的計算上，權重越大越聚焦於其對應的Value值上，即權重表明了信息的重要性，而Value是其對應的信息。

　　從圖9能夠引出另一種理解，也能夠將Attention機制看做一種軟尋址（Soft Addressing）:Source能夠看做存儲器內存儲的內容，元素由地址Key和值Value組成，當前有個Key=Query的查詢，目的是取出存儲器中對應的Value值，即Attention數值。經過Query和存儲器內元素Key的地址進行類似性比較來尋址，之因此說是軟尋址，指的不像通常尋址只從存儲內容裏面找出一條內容，而是可能從每一個Key地址都會取出內容，取出內容的重要性根據Query和Key的類似性來決定，以後對Value進行加權求和，這樣就能夠取出最終的Value值，也即Attention值。因此很多研究人員將Attention機制看做軟尋址的一種特例，這也是很是有道理的。

　　至於Attention機制的具體計算過程，若是對目前大多數方法進行抽象的話，能夠將其概括爲兩個過程：第一個過程是根據Query和Key計算權重係數，第二個過程根據權重係數對Value進行加權求和。而第一個過程又能夠細分爲兩個階段：第一個階段根據Query和Key計算二者的類似性或者相關性；第二個階段對第一階段的原始分值進行歸一化處理；這樣，能夠將Attention的計算過程抽象爲如圖10展現的三個階段。

圖10 三階段計算Attention過程

　　在第一個階段，能夠引入不一樣的函數和計算機制，根據Query和某個 Key_i，計算二者的類似性或者相關性，最多見的方法包括：求二者的向量點積、求二者的向量Cosine類似性或者經過再引入額外的神經網絡來求值，即以下方式：

　　第一階段產生的分值根據具體產生的方法不一樣其數值取值範圍也不同，第二階段引入相似SoftMax的計算方式對第一階段的得分進行數值轉換，一方面能夠進行歸一化，將原始計算分值整理成全部元素權重之和爲1的機率分佈；另外一方面也能夠經過SoftMax的內在機制更加突出重要元素的權重。即通常採用以下公式計算：

　　第二階段的計算結果 a_i即爲 Value_i對應的權重係數，而後進行加權求和便可獲得Attention數值：

　　經過如上三個階段的計算，便可求出針對Query的Attention數值，目前絕大多數具體的注意力機制計算方法都符合上述的三階段抽象計算過程。

5. Self Attention模型

　　經過上述對Attention本質思想的梳理，咱們能夠更容易理解本節介紹的Self Attention模型。Self Attention也常常被稱爲intra Attention（內部Attention），最近一年也得到了比較普遍的使用，好比Google最新的機器翻譯模型內部大量採用了Self Attention模型。

　　在通常任務的Encoder-Decoder框架中，輸入Source和輸出Target內容是不同的，好比對於英-中機器翻譯來講，Source是英文句子，Target是對應的翻譯出的中文句子，Attention機制發生在Target的元素和Source中的全部元素之間。而Self Attention顧名思義，指的不是Target和Source之間的Attention機制，而是Source內部元素之間或者Target內部元素之間發生的Attention機制，也能夠理解爲Target=Source這種特殊狀況下的注意力計算機制。其具體計算過程是同樣的，只是計算對象發生了變化而已，因此此處再也不贅述其計算過程細節。

　　若是是常規的Target不等於Source情形下的注意力計算，其物理含義正如上文所講，好比對於機器翻譯來講，本質上是目標語單詞和源語單詞之間的一種單詞對齊機制。那麼若是是Self Attention機制，一個很天然的問題是：經過Self Attention到底學到了哪些規律或者抽取出了哪些特徵呢？或者說引入Self Attention有什麼增益或者好處呢？咱們仍然以機器翻譯中的Self Attention來講明，圖11和圖12是可視化地表示Self Attention在同一個英語句子內單詞間產生的聯繫。

圖11 可視化Self Attention實例

圖12 可視化Self Attention實例

　　從兩張圖（圖十一、圖12）能夠看出，Self Attention能夠捕獲同一個句子中單詞之間的一些句法特徵（好比圖11展現的有必定距離的短語結構）或者語義特徵（好比圖12展現的its的指代對象Law）。

　　很明顯，引入Self Attention後會更容易捕獲句子中長距離的相互依賴的特徵，由於若是是RNN或者LSTM，須要依次序序列計算，對於遠距離的相互依賴的特徵，要通過若干時間步步驟的信息累積才能將二者聯繫起來，而距離越遠，有效捕獲的可能性越小。

　　可是Self Attention在計算過程當中會直接將句子中任意兩個單詞的聯繫經過一個計算步驟直接聯繫起來，因此遠距離依賴特徵之間的距離被極大縮短，有利於有效地利用這些特徵。除此外，Self Attention對於增長計算的並行性也有直接幫助做用。這是爲什麼Self Attention逐漸被普遍使用的主要緣由。

6. Attention機制的應用

　　前文有述，Attention機制在深度學習的各類應用領域都有普遍的使用場景。上文在介紹過程當中咱們主要以天然語言處理中的機器翻譯任務做爲例子，下面分別再從圖像處理領域和語音識別選擇典型應用實例來對其應用作簡單說明。

圖13 圖片-描述任務的Encoder-Decoder框架

　　圖片描述（Image-Caption）是一種典型的圖文結合的深度學習應用，輸入一張圖片，人工智能系統輸出一句描述句子，語義等價地描述圖片所示內容。很明顯這種應用場景也可使用Encoder-Decoder框架來解決任務目標，此時Encoder輸入部分是一張圖片，通常會用CNN來對圖片進行特徵抽取，Decoder部分使用RNN或者LSTM來輸出天然語言句子（參考圖13）。

　　此時若是加入Attention機制可以明顯改善系統輸出效果，Attention模型在這裏起到了相似人類視覺選擇性注意的機制，在輸出某個實體單詞的時候會將注意力焦點聚焦在圖片中相應的區域上。圖14給出了根據給定圖片生成句子「A person is standing on a beach with a surfboard.」過程時每一個單詞對應圖片中的注意力聚焦區域。

圖14 圖片生成句子中每一個單詞時的注意力聚焦區域

　　圖15給出了另外四個例子形象地展現了這種過程，每一個例子上方左側是輸入的原圖，下方句子是人工智能系統自動產生的描述語句，上方右側圖展現了當AI系統產生語句中劃橫線單詞的時候，對應圖片中聚焦的位置區域。好比當輸出單詞dog的時候，AI系統會將注意力更多地分配給圖片中小狗對應的位置。

圖15 圖像描述任務中Attention機制的聚焦做用

圖16 語音識別中音頻序列和輸出字符之間的Attention

　　語音識別的任務目標是將語音流信號轉換成文字，因此也是Encoder-Decoder的典型應用場景。Encoder部分的Source輸入是語音流信號，Decoder部分輸出語音對應的字符串流。

　　圖16可視化地展現了在Encoder-Decoder框架中加入Attention機制後，當用戶用語音說句子 how much would a woodchuck chuck 時，輸入部分的聲音特徵信號和輸出字符之間的注意力分配機率分佈狀況，顏色越深表明分配到的注意力機率越高。從圖中能夠看出，在這個場景下，Attention機制起到了將輸出字符和輸入語音信號進行對齊的功能。

　　上述內容僅僅選取了不一樣AI領域的幾個典型Attention機制應用實例，Encoder-Decoder加Attention架構因爲其卓越的實際效果，目前在深度學習領域裏獲得了普遍的使用，瞭解並熟練使用這一架構對於解決實際問題會有極大幫助。

參考文章：

【1】天然語言處理中的Attention Model：是什麼及爲何

【2】深度學習中的注意力機制(2017版)

【3】Attention注意力機制--原理與應用

【4】Attention_Network_With_Keras

【5】《A Self-Attention Setentence Embedding》閱讀筆記及實踐