X3D: Expanding Architectures for Efficient Video Recognition 論文學習

時間 2021-01-13

標籤深度學習視頻識別简体版

原文原文鏈接

Abstract 本文提出的 X3D 是一組高效率的視頻網絡，沿着網絡的空間、時間、寬度和深度維度來對較小的2D圖像分類結構進行擴展。受到機器學習中特徵選擇方法的啓發，本文使用了一個簡單的、逐步的網絡擴展方法，每一步中只擴展單個維度，這樣就可以實現準確度與複雜度的平衡。爲了將X3D的複雜度擴展至一個目標程度，在前向擴展操作之後會跟着一個反向的收縮操作。X3D實現了state of the art的

>>阅读原文<<