視頻分類算法(《《Learnable pooling with Context Gating for video classification》)

一般的視頻理解方法通常對一段視頻的間隔幀提取特徵,取它們的極大值或均值來代表整段視頻的特徵,這是一種很簡單的視頻表示方法,但是容易陷入局部最優解,論文爲此探索了一種可學習的池化技巧(learnable pooling techniques),它將多個算法(比如 Soft Bag-of-words, Fisher Vectors, NetVLAD, GRU and LSTM)相結合,共同組成視頻特徵
相關文章
相關標籤/搜索