Transformer詳解（二）：Attention機制

時間 2020-12-23

原文原文鏈接

1.Encoder-Decoder中的attention機制上一篇文章最後，在Encoder-Decoder框架中，輸入數據的全部信息被保存在了C。而這個C很容易受到輸入句子長度的影響。當句子過長時，C就有可能存不下這些信息，導致模型後續的精度下降。Attention機制對於這個問題的解決方案是在decoder階段，每個時間點輸入的C都是不一樣的。而這個C，會根據當前要輸出的y，去選取最適合y的

>>阅读原文<<