Attention-Is-All-You-Need論文筆記

原文鏈接: http://chenhao.space/post/2a42add6.html Transformer 以機器翻譯爲例: 其中 Add & Norm 層的意思是:將input到Multi-Head Attention中的 a a a,與Multi-Head Attention output的 b b b進行Add操作,得到 b ′ b' b′,再將 b ′ b' b′進行Layer N
相關文章
相關標籤/搜索