稀疏Attention

1. 模型 Self Attention是 O ( n 2 ) O(n^2) O(n2)的,那是因爲它要對序列中的任意兩個向量都要計算相關度,得到一個 n 2 n^2 n2大小的相關度矩陣: 左邊顯示了注意力矩陣,右變顯示了關聯性,這表明每個元素都跟序列內所有元素有關聯。 所以,如果要節省顯存,加快計算速度,那麼一個基本的思路就是減少關聯性的計算,也就是認爲每個元素只跟序列內的一部分元素相關,這就
相關文章
相關標籤/搜索