【CVPR2020】視頻分析:e2e

小樣本視頻識別:e2e

文章來源:https://arxiv.org/pdf/2003.01455.pdf

Motivation
實際應用中獲得視頻的標籤代價是高昂的,然而目前已經有豐富的視頻識別訓練集。可以在已有的訓練集上訓練再作遷移。小樣本視頻識別一般可分兩種,一是測試視頻已知但測試標籤未知,二是測試視頻和標籤都未知。本文探討的是後一種。不論哪種,訓練樣本的標籤應該和測試樣本的標籤不重合,但是很多文章都做不到這一點。
Previous work
之前小樣本視頻識別方法:給一個測試視頻x,和測試標籤集C。提取x的語義特徵向量(一般先提取視覺特徵向量再轉化爲語義特徵向量),同時把C中的所有標籤 c i c_i 轉化成語義特徵向量,在語義特徵空間用最近鄰算法預測。
公式如下
M ( x ) = arg min c i C    d i s t ( g ( x ) , W o r d 2 V e c ( c i ) ) M(x) = \argmin_{c_i\in C} \; dist(g(x),Word2Vec(c_i))
其中Word2Vec是nlp領域有名的方法。g是視覺特徵提取網絡fv和語義提取網絡fs的複合。
下圖是幾種經典的方法和本文方法的網絡結構。主要區別是fv和fs。
在這裏插入圖片描述
end-to-end training
之前的方法fv用的是預訓練的模型,遷移到新任務時凍結fv的參數,使得優化的壓力全落在了fs上。
本文讓fv和fs全都可訓練,並且將fs精簡成了全連接層。總的流程可總結爲一個很簡介的公式:
在這裏插入圖片描述
其中 x t x^t 是從訓練視頻中隨機選取的16幀的snnipet.

Standard 可能這領域比較新也比較混亂吧,作者嘗試提出一些標準希望後面的人能遵循 首先,訓練集(包括預訓練集)和測試集的標籤不重疊。簡單地移除名字重複的標籤顯然是不行的,因爲有的標籤名字雖然不一樣,但指向的是同一個事物。應該用Word2Vec轉化到語義特徵空間比較距離,把距離過小的標籤移除。 其次,訓練集和測試集的來源應儘量獨立。這表明從一個數據集劃分訓練集和驗證集的方式是不可取的。 最後,應該有多個測試集。