學習筆記之Transformer Self-Attention機制

Transformer 臺大李宏毅教授鏈接 Self-Attention 傳統RNN不容易平行化,比如b4就得知道a1,a2,a3,a4才能算出來 使用CNN可以實現平行化,比如圖中的一個黃三角形代表一個filter,他可以並行執行的。 在更高層filter的layer可以獲取到更長的信息,比如藍三角形,它的輸入時第一層的輸出 Self-Attention可以替代雙向RNN 可以並行計算 能夠獲得
相關文章
相關標籤/搜索