Learning Semantic Concepts and Order for Image and Sentence Matching筆記

SCO模型閱讀筆記

論文：Learning Semantic Concepts and Order for Image and Sentence Matching
發表會議：CVPR2018
做者：

函數

1、爲何看？

好多關於圖像-文本檢索的文章，可是大多數都忽略了圖像的語義順序，當語義順序被忽略時，會形成檢索不許確，圖像和文本的語義徹底相反。
看點：圖像的語義順序如何構建
應用：於跨模態圖像-文本檢索

學習

圖像語義之間存在差距，特別是像素級圖像缺少語義信息。本文提出語義加強圖像和句子匹配模型，來經過學習語義概念和用一個正確的順序語義順序提升圖像表示。

spa

給定一張圖像，用多區域多標籤CNN預測語義概念，包括對象、屬性、動做；
因爲區域沒有順序，如何給這些語義概念排序，將全局上下文和語義概念融合；
對應的句子用LSTM生成，而且對融合後的句子進行監督，對比類似度。

對象

爲何要提取語義概念？
語義概念是圖像與句子匹配的基本內容，像素級沒法完成；
blog

爲何不直接用圖像描述？
圖像描述和匹配是有區別的，圖像匹配重點實在細粒度上找最類似的。圖像描述體如今語義上，它不必定可以捕獲到圖像的細節。
排序

爲何不從語義概念上直接學習語義順序？
不一樣的順序就有不一樣的意義，語義上有意義但多是錯誤的順序。
圖片

句子表示學習：
一個完整的句子包括名詞、動詞和形容詞，分別對應語義概念中的對象、動做和屬性。對於一個句子，語義相關詞的概念本質上表現爲句子的順序性。
採用傳統的LSTM來捕獲語義相關的詞和構建語義順序。

ast

圖像的語義概念提取：
目前存在的數據集中，只有圖像和匹配的句子。數據集不能提供對象、屬性和動做的信息。因此必須用多區域多標籤的CNN進行預測。（被faster R-CNN取代） 預測語義概念等價於多標籤分類問題。

class

只挑選句子中的名詞、形容詞、動詞和數字，刪除同一語義相關的詞，忽略頻率低的詞。im

圖像語義順序學習
使用圖像全局上下文爲參考和句子生成爲監督。
圖像全局上下文
將全局上下文和語義概念所有疊加在一塊兒，不可取。由於語義概念和全局是的重要性是不相同的。

生成的句子爲監督

損失函數：