哈佛NLP組論文解讀：基於隱變量的注意力模型 | 附開源代碼

時間 2020-12-20

原文原文鏈接

摘要 Attention 注意力模型在神經網絡中被廣泛應用。在已有的工作中，Attention 機制一般是決定性的而非隨機變量。我們提出了將 Attention 建模成隱變量，並應用 VAE 和 policy gradient 訓練模型。在不使用 KL annealing 等 trick 的情況下訓練，在 IWSLT 14 German-English 上建立了新的 state-of-the-ar

>>阅读原文<<