學習筆記之Transformer Self-Attention機制

時間 2020-12-23

標籤機器學習简体版

原文原文鏈接

Transformer 臺大李宏毅教授鏈接 Self-Attention 傳統RNN不容易平行化，比如b4就得知道a1，a2，a3，a4才能算出來使用CNN可以實現平行化，比如圖中的一個黃三角形代表一個filter，他可以並行執行的。在更高層filter的layer可以獲取到更長的信息，比如藍三角形，它的輸入時第一層的輸出 Self-Attention可以替代雙向RNN 可以並行計算能夠獲得

>>阅读原文<<

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。