哈佛大學提出變分注意力：用VAE重建注意力機制

時間 2021-01-20

原文原文鏈接

注意力 (attention) 模型在神經網絡中被廣泛應用，不過注意力機制一般是決定性的而非隨機變量。來自哈佛大學的研究人員提出了將注意力建模成隱變量，應用變分自編碼器（Variational Auto-Encoder，VAE）和梯度策略來訓練模型，在不使用 kl annealing 等訓練技巧的情況下進行訓練，目前在 IWSLT German-English 上取得了非常不錯的成果。論文鏈接：

>>阅读原文<<