Transformer與BERT詳解

Transformer 自Attention機制提出後,加入attention的Seq2seq模型在各個任務上都有了提升,所以現在的seq2seq模型指的都是結合rnn和attention的模型,具體原理可以參考傳送門的文章。之後google又提出瞭解決sequence to sequence問題的transformer模型,用全attention的結構代替了lstm,在翻譯任務上取得了更好的成績
相關文章
相關標籤/搜索