論文:Self-Attention with Relative Position Representations

動機 RNN的結構是通過隱狀態對序列信息進行編碼的。 第二個 I 的輸出和第一個 I 的輸出是不同的,這是因爲輸入到其中的隱狀態是不同的。對於第二個 I 來說,隱狀態經過了單詞"I think therefore",而第一個 I 是剛剛經過初始化的。因此,RNN的隱狀態會使得處於不同位置的相同詞具有不同的輸出表示。恰恰相反的是,具有自注意力機制的Transformer(沒有位置編碼的)會使得不同位
相關文章
相關標籤/搜索