Bert&transformer

1.transformer transformer self-attention 當前編碼的詞和整個句子所有詞做attention,權重加在所有句子上獲得當前的表示 encoder-decoder-attention 當前解碼的單元和編碼器的所有輸出做attention,權重加在所有編碼輸出上,獲得當前的表示 1.1 self-attention 單頭 多頭 1.2 殘差 2.Bert Bert-
本站公眾號
   歡迎關注本站公眾號,獲取更多信息