Transformer整體過程

上一節介紹了self-attention之後,有一個問題,對self-attention來說,Input sequence的順序好像沒有什麼用,因爲對每一個Input Vector都做了attention,對每一個時間點來說,當前詞的鄰居或者很遠的詞,對他的影響都是一樣的。 這不符合我們的期望 順序表達 我們希望能把Input seq的順序考慮進去 原文中認爲,Input a i a^i ai在經
相關文章
相關標籤/搜索