SCO模型閱讀筆記
論文:Learning Semantic Concepts and Order for Image and Sentence Matching
發表會議:CVPR2018
做者:
函數
1、爲何看?
好多關於圖像-文本檢索的文章,可是大多數都忽略了圖像的語義順序,當語義順序被忽略時,會形成檢索不許確,圖像和文本的語義徹底相反。
看點:圖像的語義順序如何構建
應用:於跨模態圖像-文本檢索
學習
2、論文思路
圖像語義之間存在差距,特別是像素級圖像缺少語義信息。本文提出語義加強圖像和句子匹配模型,來經過學習語義概念和用一個正確的順序語義順序提升圖像表示。
spa
給定一張圖像,用多區域多標籤CNN預測語義概念,包括對象、屬性、動做;
因爲區域沒有順序,如何給這些語義概念排序,將全局上下文和語義概念融合;
對應的句子用LSTM生成,而且對融合後的句子進行監督,對比類似度。
對象
疑問?
爲何要提取語義概念?
語義概念是圖像與句子匹配的基本內容,像素級沒法完成;
blog
爲何不直接用圖像描述?
圖像描述和匹配是有區別的,圖像匹配重點實在細粒度上找最類似的。圖像描述體如今語義上,它不必定可以捕獲到圖像的細節。
排序
爲何不從語義概念上直接學習語義順序?
不一樣的順序就有不一樣的意義,語義上有意義但多是錯誤的順序。
圖片
3、具體工做
句子表示學習:
一個完整的句子包括名詞、動詞和形容詞,分別對應語義概念中的對象、動做和屬性。對於一個句子,語義相關詞的概念本質上表現爲句子的順序性。
採用傳統的LSTM來捕獲語義相關的詞和構建語義順序。
ast
圖像的語義概念提取:
目前存在的數據集中,只有圖像和匹配的句子。數據集不能提供對象、屬性和動做的信息。因此必須用多區域 多標籤的CNN進行預測。(被faster R-CNN取代) 預測語義概念等價於多標籤分類問題。
class
只挑選句子中的名詞、形容詞、動詞和數字,刪除同一語義相關的詞,忽略頻率低的詞。im
圖像語義順序學習
使用圖像全局上下文爲參考和句子生成爲監督。
圖像全局上下文
將全局上下文和語義概念所有疊加在一塊兒,不可取。由於語義概念和全局是的重要性是不相同的。
生成的句子爲監督
損失函數: