《Stacked Cross Attention for Image-Text Matching》

ECCV 2018 主要思路:分別對文本和圖像應用attention的機制,學習比較好的文本和圖像表示,然後再在共享的子空間中利用hard triplet loss度量文本和圖像之間的相似性。 圖像特徵:採用ResNet-101的Faster R-CNN網絡對每一個圖像產生k個目標區域,提取每一個目標對象的特徵,嵌入矩陣變換爲h維的vector 文本特徵:文本的每一個word得到one-hot v
相關文章
相關標籤/搜索