CTAP: Complementary Temporal Action Proposal Generation論文筆記

時間 2019-12-14

標籤 ctap complementary temporal action proposal generation 論文筆記简体版

原文原文鏈接

主要觀點：基於sliding window（SW）類的方法，如TURN，能夠達到很高的AR，但定位不許；基於Group的方法，如TAG，AR有明顯的上界，但定位準。因此結合二者的特長，加入Complementary Filtering（互補濾波）模塊，實際上就是加一個網絡預測TAG能不能搞，不能搞就用SW。算法

第一階段：視頻被劃分爲等長的單元，使用兩層時序卷積生成unit-level的actionness score，基於這一分數序列，分別使用TAG和滑動窗口生成兩組proposals，其中TAG就是分水嶺算法，滑動窗口選用幾種不一樣的尺寸，窗口之間有必定重合，具體參數見論文4.2。網絡

第二階段：互補濾波。經過一個Proposal-level Actionness Trustworthiness Estimator（PATE）模塊來評估TAG可否成功。訓練時使用gt做爲目標，經過TAG出來的proposals與gt之間的iou決定正負樣本，將proposals內的unit-level特徵池化到固定尺寸，再過兩層fc和sigmoid便可。測試時將其做用於每一個SW，若是輸出的分數低於閾值，則表明這個窗口內TAG大機率失效，該窗口正式成爲一個proposal，不然丟棄。如此，即可得到一個正式的proposal集合。測試

第三階段：排序和邊界調整。TURN也有這一步驟，但它使用均值池化來聚合時序特徵，丟棄了temporal ordering信息。本文設計一個Temporal convolutional Adjustment and Ranking（TAR）網絡，使用時序卷積來聚合unit-level特徵。具體地，在proposal內部，均勻採樣n_ctl個unit（我的稱之爲內部特徵），分別以起始點和終結點爲中心各採樣n_ctx個unit（我的稱之爲上下文特徵）。內部特徵過兩層時序卷積和一層全鏈接，輸出是動做的機率。兩個上下文特徵也分別經過兩層時序卷積和一層全鏈接，輸出時間offset。TAR模塊的訓練，對於原視頻進行密集的滑窗採樣做爲樣本，注意，這裏SW的參數設定應該比第一階段更密集，雖然我還沒具體看代碼。設計

相關標籤/搜索

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。