X3D: Expanding Architectures for Efficient Video Recognition 論文學習

Abstract 本文提出的 X3D 是一組高效率的視頻網絡,沿着網絡的空間、時間、寬度和深度維度來對較小的2D圖像分類結構進行擴展。受到機器學習中特徵選擇方法的啓發,本文使用了一個簡單的、逐步的網絡擴展方法,每一步中只擴展單個維度,這樣就可以實現準確度與複雜度的平衡。爲了將X3D的複雜度擴展至一個目標程度,在前向擴展操作之後會跟着一個反向的收縮操作。X3D實現了state of the art的
相關文章
相關標籤/搜索