Transformer優化之稀疏注意力

時間 2021-01-12

標籤深度學習 Bert 自然語言處理简体版

原文原文鏈接

最近要開始使用Transformer去做一些事情了，特地把與此相關的知識點記錄下來，構建相關的、完整的知識結構體系。以下是要寫的文章，文章大部分都發布在公衆號【雨石記】上，歡迎關注公衆號獲取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 預訓練+微調帶來的奇蹟 Bert: 雙向預訓練+微調 Bert與模型壓縮 Bert與模型蒸餾：PKD和DistillBer

>>阅读原文<<