Attention機制、HAN

時間 2020-12-30

標籤 NLP 简体版

原文原文鏈接

一、Attention機制 1.爲什麼要用Attention 在encoder-decoder架構中，當輸入序列比較長時，模型的性能會變差，因爲即便是LSTM或GRU也是對文本的信息進行了壓縮，尤其是對於機器翻譯、摘要生成等任務而言，decoder每個時間步的輸出其實是對encoder各時間步的輸入有不同的側重的。因此，引入attention機制，來對encoder各時間步賦以不同的權重，也即給予

>>阅读原文<<