【NLP複習】Attention機制

Attention機制通過對encoder所有時間步的hidden state加權平均來得到背景變量。 其中a就是softmax把Q跟K的值們歸一化了 機器翻譯: Q是decoder每一步的hidden state K是encoder每一步的hidden state V=K 通過Q跟K算出V中hidden states們的權重,讓V中這些hidden state加權求和 文本分類(self-Att
相關文章
相關標籤/搜索