transformer 模型（self-attention自注意力）

時間 2020-01-31

標籤 transformer 模型 self attention 注意力简体版

原文原文鏈接

transformer模型在《Attention is all you need》論文中提出網絡這篇論文主要亮點在於：1）不一樣於以往主流機器翻譯使用基於RNN的seq2seq模型框架，該論文用attention機制代替了RNN搭建了整個模型框架。2）提出了多頭注意力（Multi-headed attention）機制方法，在編碼器和解碼器中大量的使用了多頭自注意力機制（Multi-headed

>>阅读原文<<