Transformer Encoder multi-head-Attention的理解

時間 2020-12-30

原文原文鏈接

將第一列的所有詞表示成[6,9]的詞向量，3個batch_size形成一個3維的矩陣向量 [batch_size,seq_length,embedding_dim]=[3,6,9] 初始化3個[9,9]的權重矩陣，分別是Query_w,Key_W,Value_W,用於模型參數更新 Query_w,Key_W,Value_W分別於每一batch_size相乘得到Q，K，V3個矩陣超參數設置head

>>阅读原文<<