視頻動做分類網絡《TSM: Temporal Shift Module for Efficient Video Understanding》學習筆記

全文按照原文的結構來描述(能夠當作是翻譯),儘量保持做者原文想表達的意思,裏面會穿插本身的想法(會註明),描述有問題的地方也歡迎指出。python Abstract 問題: 視頻流的爆炸增加帶來了對高準確度和低成本計算的視頻理解挑戰。常規的2D CNN 在計算上是相對廉價的,但其沒法捕獲時間維度的關係。而基於3D CNN 的方法能夠達到良好的效果性能,但計算量大,所以部署成本很大。git 解決方案
相關文章
相關標籤/搜索