Transformer與BERT詳解

時間 2021-01-10

原文原文鏈接

Transformer 自Attention機制提出後，加入attention的Seq2seq模型在各個任務上都有了提升，所以現在的seq2seq模型指的都是結合rnn和attention的模型，具體原理可以參考傳送門的文章。之後google又提出瞭解決sequence to sequence問題的transformer模型，用全attention的結構代替了lstm，在翻譯任務上取得了更好的成績

>>阅读原文<<