Bert系列學習之Transformer(一)

目錄 1、BERT任務目標概述 2、傳統解決方案遇到的問題 2.1 傳統的RNN 2.2 傳統的word2vec 3、注意力機制的作用 3.1 Transformer架構 3.2 Attention機制 3.3 self-attention 計算方法 4、Multi-head 的作用 5、堆疊多層Encoder 6、位置信息編碼 7、LayerNorm 與 殘差連接 8、Transformer的D
相關文章
相關標籤/搜索