哈佛大學提出變分注意力:用VAE重建注意力機制

注意力 (attention) 模型在神經網絡中被廣泛應用,不過注意力機制一般是決定性的而非隨機變量。來自哈佛大學的研究人員提出了將注意力建模成隱變量,應用變分自編碼器(Variational Auto-Encoder,VAE)和梯度策略來訓練模型,在不使用 kl annealing 等訓練技巧的情況下進行訓練,目前在 IWSLT German-English 上取得了非常不錯的成果。 論文鏈接:
相關文章
相關標籤/搜索