transformer整理

介紹 Transformer 是一種基於 encoder-decoder 結構的模型,模型結構如下圖所示,在encoder中主要有Multi-Headed Attention和前饋神經網絡層組成,decoder 中主要有Multi-Headed Attention、前饋神經網絡層和Masked Multi-Headed Attention組成。 在 Encoder 中, Input 經過 embe
相關文章
相關標籤/搜索