視頻深度學習:2018行爲識別指南

動作識別困難的原因: 1 巨大的計算成本: 一個簡單的卷積2D網絡用於101個類的分類只有~5M個參數,而相同的結構在膨脹爲3D結構時會產生~33M個參數。在UCF101上訓練3DConvNet需要3到4天,而在Sports-1M上訓練3DConvNet則需要2個月,這使得廣泛的架構搜索變得困難,而且可能過擬合 2 捕獲長上下文 動作識別涉及跨幀捕獲時空上下文。另外,所捕獲的空間信息必須補償照相機
相關文章
相關標籤/搜索