BERT相關知識講解(1)之 transformer

參考自:http://fancyerii.github.io/2019/03/09/transformer-codes/ 每個詞都是有其他詞的信息的,這個是 FNN 的區別 與普通的 attention 相比,Query可以看作是decoder的隱狀態,Key可以看作是encoder的輸出,Value可以看作是encoder的輸出 多頭其實就是多組 矩陣對,每一組QKV都可以看作某種信息的抽取 如
相關文章
相關標籤/搜索