NeXt VLAD多模態視頻分類

NetVLAD最初是用於位置識別中聚合空間表達,發現比常規的時間模型(LSTM/GRU)用於聚合視覺和聽覺特徵任務更有效、更快。Net VLAD主要的一個缺點是特徵維度高,基於這種特徵的大的分類模型需要幾百百萬的參數。例如,一個Net VLAD網絡有128個聚類,特徵2048維,那麼作爲向量就是262144維。後面的全連接層是2048維度的輸出,那麼將有537M的參數。這種低效的參數將使得模型很難
相關文章
相關標籤/搜索