Attention Transformer 精簡原理總結

目錄   一. Attention 二. Self-Attention 三. Transformer 3.1 multi-headed 3.2 Positional Encoding 3.3 Add & Normalize 殘差網絡 Layer Normalization 一. Attention Attention函數的本質可以被描述爲一個查詢(query)到一系列(鍵key-值value)對的
相關文章
相關標籤/搜索