Transformer 學習筆記

傳統 RNN 存在問題 處理 Seq2seq 最常用的就是 RNN。RNN 的問題在於無法 Parallel (並行處理),可以用 CNN 解決這個問題,但是 CNN 能夠考慮的特徵向量非常少,而解決這個問題又需要通過再次疊加 CNN 來解決。 爲了解決這個問題,引入了 Self-Attention Layer,其輸入是一個 sequence 輸出也是一個 sequence,能夠達到跟 RNN 一
相關文章
相關標籤/搜索