HAN分層注意網絡

HAN 輸入詞向量序列後,通過詞級別的Bi-GRU後,每個詞都會有一個對應的Bi-GRU輸出的隱向量h,再通過 u w u_w uw​向量與每個時間步的h向量點積得到attention權重,然後把h序列做一個根據attention權重的加權和,得到句子summary向量s2,每個句子再通過同樣的Bi-GRU結構再加attention得到最終輸出的文檔特徵向量v向量,然後v向量通過後級dense層再
相關文章
相關標籤/搜索