Attention Transformer 精簡原理總結

時間 2020-12-30

原文原文鏈接

目錄一. Attention 二. Self-Attention 三. Transformer 3.1 multi-headed 3.2 Positional Encoding 3.3 Add & Normalize 殘差網絡 Layer Normalization 一. Attention Attention函數的本質可以被描述爲一個查詢（query）到一系列（鍵key-值value）對的

>>阅读原文<<