參考:
作者使用兩個對抗網絡來聯合學習高維特徵和它們在不同模態下的對應哈希編碼。同時,一方面使用對抗學習來有監督地最大化不同模態之間語義關聯和特徵分佈一致性;另一方面無縫添加一個自監督的語義網絡,來發現多標籤標註中的語義信息。該模型的主要亮點如下:
本文提出了一個新型的用於跨模態檢索的自監督對抗哈希模型。據作者介紹,這是第一批嘗試將對抗學習應用到跨模態哈希問題的工作之一。
本文將自監督語義學習和對抗學習結合,以儘可能保留不同模態之間的語義相關性和表徵一致性。使用這種方式可以有效地打破模態鴻溝。
基於三個評測數據集的大規模實驗結果,表明本文提出的 SSAH 明顯優於當前最好的基於傳統方法和深度學習方法的跨模態哈希算法。
這個方法主要由三個部分組成,包括了一個自監督語義生成網絡(LabNet)和兩個分別用於圖像和文本的對抗網絡(ImgNet 和 TexNet)。
具體來說,LabNet 的目標設定使它可以從多標籤標註中學習到語義特徵。然後,它可以被視爲用於監督兩個階段的模態特徵學習的公共語義空間。第一個階段,在公共的語義空間中將來自不同生成網絡的模態特定的特徵聯繫起來。考慮到深度神經網路的每個輸出層都包含了語義信息,在公共的語義空間中將模態特定的特徵聯繫起來,可以幫助提高模態之間的語義相關性。第二個階段,把語義特徵和模態特定的特徵同時饋送進兩個判別網絡。因此,在相同語義特徵的監督下,兩個模態的特徵分佈最終會趨於一致。
具體來說,LabNet的目標是以允許其從多標籤註釋中學習語義特徵的方式進行構建的。它可以被認爲是一個共同的語義空間,在這個空間中監督兩個階段的情態特徵學習。在第一階段,來自不同發生器網絡的特定於模態的特徵在共同的語義空間中彼此關聯。由於深層神經網絡中的每個輸出層都包含語義信息,因此將共同語義空間中特定於模態的特徵關聯起來有助於提升模態之間的語義相關性。在第二階段,語義特徵和特定於模態的特徵同時饋入兩個鑑別器網絡。結果,兩種模式的特徵分佈趨於在相同語義特徵的監督下變得一致。在本節中,我們將詳細介紹我們的SSAH方法,包括模型制定和方法背後的方法學習算法。
成對多標籤相似度矩陣
在多標籤設置中,兩個實例(
跨模態哈希的目標是爲這兩種模式學習統一的哈希碼:
使用漢明距離,計算兩個編碼的相似性
給定S,條件B下的S的概率可以表示爲:
具有較大內積的兩個實例應該很可能具有相似性。
量化海明空間中的二進制碼之間的相似性的問題因此可以轉化爲編碼的原始特徵的內積的計算。
在這裏,我們構建了一對對抗網絡(ImgNet和TxtNet)來學習圖像和文本模式的單獨哈希函數(
通過
以微軟的COCO數據集爲例,有一個實例用多個標籤進行了註釋,例如「人」,「棒球棒」和「棒球手套」。在這種情況下,最自然的想法是,可以將多標籤註釋作爲一種有利的方式,以便在更細粒度的層次上彌合模態之間的語義相關性。我們設計了一個端到端的全連接深層神經網絡,命名爲LabNet,爲不同模式之間的語義相關性建模,以模擬不同形式之間的語義相關性。給定一個實例的多標籤向量,LabNet會逐層提取抽象的語義特徵; 通過這些我們可以監督ImgNet和TxtNet中的特徵學習過程。由於三元組(
如上所述,屬於多模態實例的不同模態在語義上是相關的。爲了保持這種語義相關性,我們監督LabNet指導下的兩種模式的特徵學習過程,包括監督語義特徵和學習的二進制編碼。爲了解決圖像模態問題,我們設計了一個名爲ImgNet的端到端特徵學習網絡,該網絡可以將圖像投影到哈希編碼中。通過使用語義網絡監督圖像特徵學習,我們可以在ImgNet和語義網絡之間保持相同的語義相關性。這是在ImgNet中使用時的語義網絡的自我監督角色。同樣,在考慮文本形式時,我們使用語義網絡以同樣的方式監督TxtNet的特徵學習過程。因此,
應該指出的是,雖然(3)和(4)式在結構上類似,它們具有不同的含義。因此,我們使用監督信息