transformer的一些note

Pos-Embedding 不同維度的正弦曲線,橫軸爲變化的pos。 我們還嘗試使用學習的位置embedding來代替,發現這兩個版本產生了幾乎相同的結果。我們選擇正弦模型是因爲它可以使模型外推到比訓練中遇到的序列長度長的序列。 未完待續
相關文章
相關標籤/搜索