Transformer詳解

時間 2020-12-28

標籤 Transformer 深度學習简体版

原文原文鏈接

目錄模型結構 Attention 放縮點積Attention（Scaled Dot-Product Attetion）多頭Attention（Multi-Head Attention） Transformer中的Attention 嵌入和Softmax 位置編碼使用Self-Attention的原因 Transformer內部細節 Encoder內部細節殘差網絡 Encoder過程層歸一

>>阅读原文<<