Transformer的position embedding

1. position embedding 位置編碼 我們爲什麼要引入位置編呢?主有以下幾個原因: 文本是時序型數據,詞與詞之間的順序關係往往影響整個句子的含義。 transformer模型的self-attention層並沒有包含位置信息,即一句話中詞語在不同的位置時在transformer中是沒有區別的。 我們要想讓位置信息參與訓練,就要構造一個跟輸入embedding維度一樣的矩陣,然後跟輸
相關文章
相關標籤/搜索