多模態特徵融合方法學習

一、 圖卷積做視覺、語言特徵融合 這篇文章的重點是做圖像內物體和句子單詞的細粒度對齊,圖像中物體和句子單詞被做成同維度的特徵表示,假設每張圖像被表示成 F = d ∗ m F=d*m F=d∗m,取圖像中 m m m個物體,每個被表示成 d d d維;每個句子被表示成 G = d ∗ n G=d*n G=d∗n,保留n個單詞,每個單詞d維。 圖卷積的使用關鍵在於鄰接矩陣A怎麼構造。這裏採用的方法是
相關文章
相關標籤/搜索