Transformer的簡單總結

1. encoder 1.1 詞嵌入 除了在最底層的編碼器的輸入來自詞嵌入的詞向量,其餘的解碼器的輸入則來自下一層解碼器的輸出。 對於每個編碼器,接收的是一個向量列表。比如詞向量維512維,一句話有30個詞,輸入便是(30*512) 1.2 self-attention 自注意力層 每個單詞的輸入路徑不同。 512維詞向量,10個詞,經過三個權重層 W Q , W K , W V W_Q,W_K,
相關文章
相關標籤/搜索