Transformer

本文章參考以下博客,如有不懂,可看原博客 參考文章1 參考文章2 整體架構 Transformer其實是一個Seq2Seq模型,左邊一個encoder把輸入讀進去,右邊一個decoder得到輸出 Encoder(N=6層,每層包括2個layers) 主要是由self-attention和前饋神經網絡構成 全連接有兩層,第一層的激活函數是ReLU,第二層是一個線性激活函數,可以表示爲: Transf
相關文章
相關標籤/搜索