Transformer-XL: Unleashing the Potential of Attention Models

簡介

現實遠程依賴問題,好比要正確理解文章內容,有時須要閱讀多處段落,這對人來講輕鬆自如。可是,對神經網絡來講,遠程依賴問題依然是一個挑戰。雖然基於門控的RNN(LSTM,GRU等)和梯度裁剪等技術提升了對遠程依賴建模的能力,但仍不足以解決問題。
其中一個解決方法就是使用TransformersTransformers容許數據單元直接鏈接,能夠更好的捕獲遠距離的數據關係。可是,在語音模型中,Transformers通常使用固定長度context實現,即:把文本序列截斷爲幾個固定長度的序列,而後分別單獨處理。緩存

clipboard.png

這存在兩個問題:網絡

  1. 沒法計算超過固定長度的依賴關係。
  2. 序列截斷後,形成段落邊界破碎,從而形成低效優化,即便是短序列這也是嚴重問題。

爲了解決這些問題,能夠嘗試使用Transformers-XL模型。Transformers-XL由兩種技術構成:Segment-level RecurrenceRelative Positional Encodings。架構

Segment-level Recurrence

clipboard.png

在訓練期間,當模型處理下一個新段落時,將前一個段落的計算表示固定而且緩存以做爲重用擴展上下文。此附加鏈接將最大可能的將依賴性長度增長N倍,其中N是網絡的深度,由於上下文信息如今可以跨越段落邊界流動。此外,這種重複機制還解決了上下文碎片問題。性能

Relative Positional Encodings

clipboard.png

clipboard.png

在標準的Transformer中,序列順序的信息,都是由一組位置編碼提供,每個位置都有絕對的位置信息。但將這個邏輯應用到重用機制中時,會致使性能損失。這個問題的解決思路是,對隱藏狀態中的相對位置信息進行編碼。從概念上講,位置編碼爲模型提供了關於應如何收集信息的時間線索,即應該在哪裏介入處理。以相對的方式定義時間線索,將相同的信息注入每層的注意分數,更加直觀,也更通用。基於這個思路,能夠建立一組相對位置編碼,使得重用機制變得可行,也不會丟失任何的時間信息。將相對位置嵌入Transformer之中,並配合重用機制,就獲得了Transformer-XL的架構。基於這些改進,Transformer-XL在相關的數據集上都取得了很好的成績。論文中表示,這是第一個在字符級和單詞級建模方面比RNN結果更好的自注意力模型。學習

總結

Transformer-XL 在幾種不一樣的數據集(大 / 小,字符級別 / 單詞級別等)均實現了最早進的語言建模結果。它結合了深度學習的兩個重要概念——循環機制和注意力機制,容許模型學習長期依賴性,且可能能夠擴展到須要該能力的其餘深度學習領域,例如音頻分析(如每秒 16k 樣本的語音數據)等。優化

相關文章
相關標籤/搜索