視頻深度學習：2018行爲識別指南

時間 2021-01-19

原文原文鏈接

動作識別困難的原因： 1 巨大的計算成本：一個簡單的卷積2D網絡用於101個類的分類只有~5M個參數，而相同的結構在膨脹爲3D結構時會產生~33M個參數。在UCF101上訓練3DConvNet需要3到4天，而在Sports-1M上訓練3DConvNet則需要2個月，這使得廣泛的架構搜索變得困難，而且可能過擬合 2 捕獲長上下文動作識別涉及跨幀捕獲時空上下文。另外，所捕獲的空間信息必須補償照相機

>>阅读原文<<