生成模型學習筆記（2）：Transformer

時間 2021-01-12

原文原文鏈接

Transformer 學習筆記本部分來源於論文《Attention Is All You Need》 0 摘要提出了一種新的模型 Transformer ，完全基於注意力機制，徹底省去了卷積和遞歸。在兩個機器翻譯的任務上證明了該模型質量上更優同時由於並行化更好導致所需的訓練時間更少。可以很好的應用到其他的任務上。 1 介紹 RNN由於其固有的訓練順序導致很難並行化訓練。大部分情況下注

>>阅读原文<<