Transformer補充及總體過程

上一節介紹了self-attention以後,有一個問題,對self-attention來講,Input sequence的順序好像沒有什麼用,由於對每個Input Vector都作了attention,對每個時間點來講,當前詞的鄰居或者很遠的詞,對他的影響都是同樣的。 這不符合咱們的指望html 順序表達 咱們但願能把Input seq的順序考慮進去 原文中認爲,Input a i a^i ai
相關文章
相關標籤/搜索