深度學習建模訓練總結(五):梳理NLP發展里程碑——各種注意力機制對比分析

之前提到,seq2seq的一大缺點是單一的語義向量難以表達長序列的完整語義,而改善這一問題的一個有效方法就是結合注意力機制,在不同的時刻針對輸出計算包含不同語義的語義向量: 所謂注意力機制,本質上就是在分析過程中引入權重,在本文,我主要介紹兩種注意力計算框架:原始的計算框架和multi-head attention,從原始的框架中又進一步劃分爲:soft attention(key=value)、
相關文章
相關標籤/搜索