多模態特徵融合方法學習

時間 2020-12-30

原文原文鏈接

一、圖卷積做視覺、語言特徵融合這篇文章的重點是做圖像內物體和句子單詞的細粒度對齊，圖像中物體和句子單詞被做成同維度的特徵表示，假設每張圖像被表示成 F = d ∗ m F=d*m F=d∗m，取圖像中 m m m個物體，每個被表示成 d d d維；每個句子被表示成 G = d ∗ n G=d*n G=d∗n，保留n個單詞，每個單詞d維。圖卷積的使用關鍵在於鄰接矩陣A怎麼構造。這裏採用的方法是

>>阅读原文<<