Attention is All You Need 論文架構理解

本文主要對論文「Attention is All You Need」的核心架構進行介紹。 下圖是Transformer的架構: Attention 一個attention函數可以看做是將一個query跟一組key-value對映射到一個輸出。query、keys、values和輸出都是向量。輸出是values的加權和,每一個values對應的權重是由兼容函數(compatibility funct
相關文章
相關標籤/搜索