自注意力機制(Self-Attention)的基本知識

Transformers是機器學習(ML)中一個令人興奮的(相對)新的部分,但是在理解它們之前,有很多概念需要分解。這裏我們關注的是基本的Self-Attention機制是如何工作的,這是Transformers模型的第一層。本質上,對於每個輸入向量,Self-Attention產生一個向量,該向量在其鄰近向量上加權求和,其中權重由單詞之間的關係或連通性決定。 內容列表 介紹 自我關注-數學 引用
相關文章
相關標籤/搜索