GPT-1 & 2: 預訓練+微調帶來的奇蹟

最近要開始使用Transformer去做一些事情了,特地把與此相關的知識點記錄下來,構建相關的、完整的知識結構體系。 以下是要寫的文章,文章大部分都發布在公衆號【雨石記】上,歡迎關注公衆號獲取最新文章。 Transformer:Attention集大成者 GPT-1 & 2: 預訓練+微調帶來的奇蹟 Bert: 雙向預訓練+微調 Bert與模型壓縮 Bert與模型蒸餾:PKD和DistillBer
相關文章
相關標籤/搜索