transformer模型分析

在介紹self attention時也提到,用CNN、RNN處理序列數據的時候,沒法很好地進行並行計算,同時也會存在信息的丟失,於是transformer就選擇直接捨棄CNN、RNN,徹底由attention機制構成。html 學習一個模型,我以爲最重要的是首先要明白模型要作什麼,以及它爲何這樣作,對transformer來講,它本質上仍是一個encoder-decoder(seq2seq)模型,
相關文章
相關標籤/搜索