預訓練語言模型學習筆記

Bert解決長序列問題 架構設計 爲了能讓機器可以讀非常長的序列,Transformer-XL 可以讓機器讀跨越片段的內容。爲了讓自注意力的計算複雜度變小,從 O(T²) 變成了 O(TlogT),甚至更低, Reformer 使用了局部敏感性的哈希注意力。爲了讓自注意力的空間複雜度也變小,從O(T²)變小,Longformer 用注意力模式來稀疏完整的注意力矩陣。   預訓練語言模型要如何做不同
相關文章
相關標籤/搜索