哈佛大學提出變分注意力:用VAE重建注意力機制

注意力 (attention) 模型在神經網絡中被普遍應用,不過注意力機制通常是決定性的而非隨機變量。來自哈佛大學的研究人員提出了將注意力建模成隱變量,應用變分自編碼器(Variational Auto-Encoder,VAE)和梯度策略來訓練模型,在不使用 kl annealing 等訓練技巧的狀況下進行訓練,目前在 IWSLT German-English 上取得了很是不錯的成果。git 論文
相關文章
相關標籤/搜索