關於transformer模型總結(源碼)

本文主要是對transfermer模型的源碼進行解析: transfermer主要結構是由encoder和decoder構成。其中,encoder是由embedding + positional_encoding做爲輸入,而後加一個dropout層,而後輸入放到6個multihead_attention構成的結構中,每一個multihead_attention後面跟一個feedforward。而d
相關文章
相關標籤/搜索