稀疏Attention

1. 模型 Self Attention是 O ( n 2 ) O(n^2) O(n2)的,那是由於它要對序列中的任意兩個向量都要計算相關度,獲得一個 n 2 n^2 n2大小的相關度矩陣:html 左邊顯示了注意力矩陣,右變顯示了關聯性,這代表每一個元素都跟序列內全部元素有關聯。web 因此,若是要節省顯存,加快計算速度,那麼一個基本的思路就是減小關聯性的計算,也就是認爲每一個元素只跟序列內的一
相關文章
相關標籤/搜索