NeXt VLAD多模態視頻分類

時間 2021-01-16

標籤 imagednn 視頻分類多模態简体版

原文原文鏈接

NetVLAD最初是用於位置識別中聚合空間表達，發現比常規的時間模型（LSTM/GRU）用於聚合視覺和聽覺特徵任務更有效、更快。Net VLAD主要的一個缺點是特徵維度高，基於這種特徵的大的分類模型需要幾百百萬的參數。例如，一個Net VLAD網絡有128個聚類，特徵2048維，那麼作爲向量就是262144維。後面的全連接層是2048維度的輸出，那麼將有537M的參數。這種低效的參數將使得模型很難

>>阅读原文<<