Transformers 是一種圖神經網絡

時間 2021-01-12

原文原文鏈接

文章目錄 NLP 的表示學習拆解 Transformer 多頭注意力機制尺度問題以及前饋層用 GNNs 構建圖的表示句子是完全聯通的詞圖我們可以相互學到點什麼？全連通圖是 NLP 的最佳輸入格式嗎？如何學習長期的依賴？ Transformers 在學習「神經語法嗎」？爲什是多頭注意力？爲什麼是注意力？爲什麼訓練 Transformers 這麼難？進一步的閱讀轉載來源:ht

>>阅读原文<<