主要觀點:基於sliding window(SW)類的方法,如TURN,能夠達到很高的AR,但定位不許;基於Group的方法,如TAG,AR有明顯的上界,但定位準。因此結合二者的特長,加入Complementary Filtering(互補濾波)模塊,實際上就是加一個網絡預測TAG能不能搞,不能搞就用SW。算法
第一階段:視頻被劃分爲等長的單元,使用兩層時序卷積生成unit-level的actionness score,基於這一分數序列,分別使用TAG和滑動窗口生成兩組proposals,其中TAG就是分水嶺算法,滑動窗口選用幾種不一樣的尺寸,窗口之間有必定重合,具體參數見論文4.2。網絡
第二階段:互補濾波。經過一個Proposal-level Actionness Trustworthiness Estimator(PATE)模塊來評估TAG可否成功。訓練時使用gt做爲目標,經過TAG出來的proposals與gt之間的iou決定正負樣本,將proposals內的unit-level特徵池化到固定尺寸,再過兩層fc和sigmoid便可。測試時將其做用於每一個SW,若是輸出的分數低於閾值,則表明這個窗口內TAG大機率失效,該窗口正式成爲一個proposal,不然丟棄。如此,即可得到一個正式的proposal集合。測試
第三階段:排序和邊界調整。TURN也有這一步驟,但它使用均值池化來聚合時序特徵,丟棄了temporal ordering信息。本文設計一個Temporal convolutional Adjustment and Ranking(TAR)網絡,使用時序卷積來聚合unit-level特徵。具體地,在proposal內部,均勻採樣nctl個unit(我的稱之爲內部特徵),分別以起始點和終結點爲中心各採樣nctx個unit(我的稱之爲上下文特徵)。內部特徵過兩層時序卷積和一層全鏈接,輸出是動做的機率。兩個上下文特徵也分別經過兩層時序卷積和一層全鏈接,輸出時間offset。TAR模塊的訓練,對於原視頻進行密集的滑窗採樣做爲樣本,注意,這裏SW的參數設定應該比第一階段更密集,雖然我還沒具體看代碼。設計