LambdaNetworks論文解讀

最近有不少人和我提到 ViT 以及 DETR 以及商湯提出的 Deformable DETR,仿若看到了 Transformer 在計算機視覺中大放異彩的未來,甚至谷歌對其在自注意力機制上進行了調整並提出 Performer。但是,由於 Transformer 的自注意力機制對內存的需求是輸入的平方倍,這在圖像任務上計算效率過低,當輸入序列很長的時候,自注意力對長程交互建模計算量更是龐大無比。而且
相關文章
相關標籤/搜索