Self-Attention與Transformer

1.由來 在Transformer之前,做翻譯的時候,一般用基於RNN的Encoder-Decoder模型。從X翻譯到Y。 但是這種方式是基於RNN模型,存在兩個問題。 一是RNN存在梯度消失的問題。(LSTM/GRU只是緩解這個問題) 二是RNN 有時間上的方向性,不能用於並行操作。Transformer 擺脫了RNN這種問題。 2.Transformer 的整體框架 輸入的 x 1 , x 2
相關文章
相關標籤/搜索