Transformer學習記錄

時間 2021-01-10

標籤學習筆記人工智能深度學習算法简体版

原文原文鏈接

1. 模型結構模型結構如下圖：和大多數seq2seq模型一樣，transformer的結構也是由encoder和decoder組成。 1.1 Encoder Encoder由N=6個相同的layer組成，layer指的就是上圖左側的單元，最左邊有個「Nx」，這裏是x6個。每個Layer由兩個sub-layer組成，分別是multi-head self-attention mechanism和f

>>阅读原文<<