Transformer 學習筆記

時間 2020-12-30

原文原文鏈接

傳統 RNN 存在問題處理 Seq2seq 最常用的就是 RNN。RNN 的問題在於無法 Parallel (並行處理)，可以用 CNN 解決這個問題，但是 CNN 能夠考慮的特徵向量非常少，而解決這個問題又需要通過再次疊加 CNN 來解決。爲了解決這個問題，引入了 Self-Attention Layer，其輸入是一個 sequence 輸出也是一個 sequence，能夠達到跟 RNN 一

>>阅读原文<<