《TSM:Temporal Shift Module for Efficient Video Understanding》閱讀筆記

這篇論文的核心思想是通過在2DCNN中位移temporal維度上的channels,來實現視頻中時間維度上的信息交互。作者分析了一般的卷積操作,其主要分爲兩個部分,1是位移,2是對應位置的權值相乘再相加。其中位移不消耗計算資源,所以,作者想到能否可以在temporal維度上位移,達到不同幀的特徵信息交融來增強模型對視頻信息的理解。位移過程如下圖所示: 上圖中,不同顏色代表不同幀的特徵,其大小爲ch
相關文章
相關標籤/搜索