Transformer-XL: Unleashing the Potential of Attention Models

時間 2020-01-12

標籤 transformer unleashing potential attention models 简体版

原文原文鏈接

簡介

現實遠程依賴問題，好比要正確理解文章內容，有時須要閱讀多處段落，這對人來講輕鬆自如。可是，對神經網絡來講，遠程依賴問題依然是一個挑戰。雖然基於門控的RNN（LSTM,GRU等）和梯度裁剪等技術提升了對遠程依賴建模的能力，但仍不足以解決問題。
其中一個解決方法就是使用Transformers，Transformers容許數據單元直接鏈接，能夠更好的捕獲遠距離的數據關係。可是，在語音模型中，Transformers通常使用固定長度context實現，即：把文本序列截斷爲幾個固定長度的序列，而後分別單獨處理。緩存

這存在兩個問題：網絡

沒法計算超過固定長度的依賴關係。
序列截斷後，形成段落邊界破碎，從而形成低效優化，即便是短序列這也是嚴重問題。

爲了解決這些問題，能夠嘗試使用Transformers-XL模型。Transformers-XL由兩種技術構成：Segment-level Recurrence和Relative Positional Encodings。架構

Segment-level Recurrence

在訓練期間，當模型處理下一個新段落時，將前一個段落的計算表示固定而且緩存以做爲重用擴展上下文。此附加鏈接將最大可能的將依賴性長度增長N倍，其中N是網絡的深度，由於上下文信息如今可以跨越段落邊界流動。此外，這種重複機制還解決了上下文碎片問題。性能

Relative Positional Encodings

在標準的Transformer中，序列順序的信息，都是由一組位置編碼提供，每個位置都有絕對的位置信息。但將這個邏輯應用到重用機制中時，會致使性能損失。這個問題的解決思路是，對隱藏狀態中的相對位置信息進行編碼。從概念上講，位置編碼爲模型提供了關於應如何收集信息的時間線索，即應該在哪裏介入處理。以相對的方式定義時間線索，將相同的信息注入每層的注意分數，更加直觀，也更通用。基於這個思路，能夠建立一組相對位置編碼，使得重用機制變得可行，也不會丟失任何的時間信息。將相對位置嵌入Transformer之中，並配合重用機制，就獲得了Transformer-XL的架構。基於這些改進，Transformer-XL在相關的數據集上都取得了很好的成績。論文中表示，這是第一個在字符級和單詞級建模方面比RNN結果更好的自注意力模型。學習

總結

Transformer-XL 在幾種不一樣的數據集（大 / 小，字符級別 / 單詞級別等）均實現了最早進的語言建模結果。它結合了深度學習的兩個重要概念——循環機制和注意力機制，容許模型學習長期依賴性，且可能能夠擴展到須要該能力的其餘深度學習領域，例如音頻分析（如每秒 16k 樣本的語音數據）等。優化

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。