Transformer Encoder multi-head-Attention的理解

將第一列的所有詞表示成[6,9]的詞向量,3個batch_size形成一個3維的矩陣向量 [batch_size,seq_length,embedding_dim]=[3,6,9] 初始化3個[9,9]的權重矩陣,分別是Query_w,Key_W,Value_W,用於模型參數更新 Query_w,Key_W,Value_W分別於每一batch_size相乘得到Q,K,V3個矩陣 超參數設置head
相關文章
相關標籤/搜索