Transformer詳解

目錄 模型結構 Attention 放縮點積Attention(Scaled Dot-Product Attetion) 多頭Attention(Multi-Head Attention) Transformer中的Attention 嵌入和Softmax 位置編碼 使用Self-Attention的原因 Transformer內部細節 Encoder內部細節 殘差網絡 Encoder過程 層歸一
相關文章
相關標籤/搜索