Reformer:高效的Transformer

時間 2020-12-28

標籤深度學習简体版

原文原文鏈接

導讀：Transformer模型已經在許多任務上取得了令人欣喜的成績，但是當擴展到更長的上下文窗口時會遇到許多限制。更大的上下文窗口意味着模型能力變得更加強大，但也會讓其變得不夠高效，消耗更多的內存。來自Google AI團隊最新的Reformer模型結合了兩個至關重要的技術來解決限制Transformer應用到長上下文窗口的注意力和內存分配的問題。作者：Nikita Kitaev, Lukas

>>阅读原文<<