貪心學院transformer模型講解記錄

1.FFN層和z1和z2層是不同的,FFN層是隔開的,權重不共享的,而Z1和Z2不是隔開的 2.Q,K,V是借鑑了搜索的思維在裏面,Q是query的意思,<K,V>是<key,value>的意思,Q值就是word應該映射一會進行搜索的值,K是搜索的目標,V是目標值,類似K是文檔的主題,V是文檔的向量,Q是搜索文檔的文本。這樣就能訓練得到word與word之間的關係,不同的W就表示搜索的維度不一樣
相關文章
相關標籤/搜索