Transformer與seq2seq

時間 2021-01-08

標籤機器翻譯简体版

原文原文鏈接

Transformer與seq2seq Transformer模型的架構與seq2seq模型相似，Transformer同樣基於編碼器-解碼器架構，其區別主要在於以下三點： Transformer blocks：將seq2seq模型重的循環網絡替換爲了Transformer Blocks，該模塊包含一個多頭注意力層（Multi-head Attention Layers）以及兩個position-

>>阅读原文<<