Transformer詳解(二):Attention機制

1.Encoder-Decoder中的attention機制 上一篇文章最後,在Encoder-Decoder框架中,輸入數據的全部信息被保存在了C。而這個C很容易受到輸入句子長度的影響。當句子過長時,C就有可能存不下這些信息,導致模型後續的精度下降。Attention機制對於這個問題的解決方案是在decoder階段,每個時間點輸入的C都是不一樣的。而這個C,會根據當前要輸出的y,去選取最適合y的
相關文章
相關標籤/搜索