Transformer: Attention的集大成者

時間 2020-12-23

原文原文鏈接

最近要開始使用Transformer去做一些事情了，特地把與此相關的知識點記錄下來，構建相關的、完整的知識結構體系，以下是要寫的文章，本文是這個系列的第一篇, 目前已有其他篇章放在公衆號【雨石記】上，歡迎點擊下面目錄任何一個鏈接轉往公衆號： Transformer:Attention集大成者 GPT-1 & 2: 預訓練+微調帶來的奇蹟 Bert: 雙向預訓練+微調 Bert與模型壓縮 Bert

>>阅读原文<<