Compact Multi-Head Self-Attention 低秩因子分解

paper:https://arxiv.org/pdf/1912.00835.pdf Proposed Model 首先對文檔(評論或新聞文章)進行標記,然後通過查找將其轉換爲嵌入到預先訓練好的嵌入矩陣中。每個標記的嵌入通過bi-GRU語句編碼器進行編碼,以獲得該語句中每個單詞的上下文註釋。LAMA的注意機制通過計算單詞級上下文向量對這些單詞的隱藏表示的對齊分數,從而獲得這些單詞上的多個注意分佈。
相關文章
相關標籤/搜索