Learning Semantic Concepts and Order for Image and Sentence Matching筆記

SCO模型閱讀筆記

論文:Learning Semantic Concepts and Order for Image and Sentence Matching
發表會議:CVPR2018
做者:在這裏插入圖片描述

函數

1、爲何看?

好多關於圖像-文本檢索的文章,可是大多數都忽略了圖像的語義順序,當語義順序被忽略時,會形成檢索不許確,圖像和文本的語義徹底相反。
看點圖像的語義順序如何構建
應用於跨模態圖像-文本檢索

學習

2、論文思路

圖像語義之間存在差距,特別是像素級圖像缺少語義信息。本文提出語義加強圖像和句子匹配模型,來經過學習語義概念和用一個正確的順序語義順序提升圖像表示。
在這裏插入圖片描述
spa

給定一張圖像,用多區域多標籤CNN預測語義概念,包括對象、屬性、動做;
因爲區域沒有順序,如何給這些語義概念排序,將全局上下文和語義概念融合;
對應的句子用LSTM生成,而且對融合後的句子進行監督,對比類似度。
在這裏插入圖片描述


對象

疑問?

爲何要提取語義概念?
語義概念是圖像與句子匹配的基本內容,像素級沒法完成;
blog

爲何不直接用圖像描述?
圖像描述和匹配是有區別的,圖像匹配重點實在細粒度上找最類似的。圖像描述體如今語義上,它不必定可以捕獲到圖像的細節。
排序

爲何不從語義概念上直接學習語義順序?
不一樣的順序就有不一樣的意義,語義上有意義但多是錯誤的順序。
圖片

3、具體工做

句子表示學習:
一個完整的句子包括名詞、動詞和形容詞,分別對應語義概念中的對象、動做和屬性。對於一個句子,語義相關詞的概念本質上表現爲句子的順序性。
採用傳統的LSTM來捕獲語義相關的詞和構建語義順序。
在這裏插入圖片描述


ast

圖像的語義概念提取:
目前存在的數據集中,只有圖像和匹配的句子。數據集不能提供對象、屬性和動做的信息。因此必須用多區域 多標籤的CNN進行預測。(被faster R-CNN取代) 預測語義概念等價於多標籤分類問題。
在這裏插入圖片描述

class

只挑選句子中的名詞、形容詞、動詞和數字,刪除同一語義相關的詞,忽略頻率低的詞。im

圖像語義順序學習
使用圖像全局上下文爲參考和句子生成爲監督。
圖像全局上下文
將全局上下文和語義概念所有疊加在一塊兒,不可取。由於語義概念和全局是的重要性是不相同的。
在這裏插入圖片描述
生成的句子爲監督
在這裏插入圖片描述
損失函數:
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

相關文章
相關標籤/搜索