預訓練語言模型學習筆記

時間 2020-12-30

標籤 NLP 算法 nlp 简体版

原文原文鏈接

Bert解決長序列問題架構設計爲了能讓機器可以讀非常長的序列，Transformer-XL 可以讓機器讀跨越片段的內容。爲了讓自注意力的計算複雜度變小，從 O(T²) 變成了 O(TlogT)，甚至更低， Reformer 使用了局部敏感性的哈希注意力。爲了讓自注意力的空間複雜度也變小，從O(T²)變小，Longformer 用注意力模式來稀疏完整的注意力矩陣。預訓練語言模型要如何做不同

>>阅读原文<<