Attention機制、HAN

一、Attention機制 1.爲什麼要用Attention 在encoder-decoder架構中,當輸入序列比較長時,模型的性能會變差,因爲即便是LSTM或GRU也是對文本的信息進行了壓縮,尤其是對於機器翻譯、摘要生成等任務而言,decoder每個時間步的輸出其實是對encoder各時間步的輸入有不同的側重的。因此,引入attention機制,來對encoder各時間步賦以不同的權重,也即給予
相關文章
相關標籤/搜索