Bert

每個block的參數不共享,獨立學習 介紹了Transformer,下一個就是Bert,一個巨大成功的預訓練模型,上圖 Bert全名爲Bidirectional Encoder Representations from Transformers,E1...En是單個字或者詞,大部分都是字爲單位,Trm是一個transformer,T1...Tn是最終計算的隱藏層。因爲再注意力矩陣中每個詞都能學習到
相關文章
相關標籤/搜索