Transformer學習記錄

1. 模型結構 模型結構如下圖: 和大多數seq2seq模型一樣,transformer的結構也是由encoder和decoder組成。 1.1 Encoder Encoder由N=6個相同的layer組成,layer指的就是上圖左側的單元,最左邊有個「Nx」,這裏是x6個。每個Layer由兩個sub-layer組成,分別是multi-head self-attention mechanism和f
相關文章
相關標籤/搜索