自監督對抗哈希SSAH

參考:


這裏寫圖片描述
作者使用兩個對抗網絡來聯合學習高維特徵和它們在不同模態下的對應哈希編碼。同時,一方面使用對抗學習來有監督地最大化不同模態之間語義關聯和特徵分佈一致性;另一方面無縫添加一個自監督的語義網絡,來發現多標籤標註中的語義信息。該模型的主要亮點如下:

  • 本文提出了一個新型的用於跨模態檢索的自監督對抗哈希模型。據作者介紹,這是第一批嘗試將對抗學習應用到跨模態哈希問題的工作之一。

  • 本文將自監督語義學習和對抗學習結合,以儘可能保留不同模態之間的語義相關性和表徵一致性。使用這種方式可以有效地打破模態鴻溝。

  • 基於三個評測數據集的大規模實驗結果,表明本文提出的 SSAH 明顯優於當前最好的基於傳統方法和深度學習方法的跨模態哈希算法。

本文提出的 SSAH

這個方法主要由三個部分組成,包括了一個自監督語義生成網絡(LabNet)和兩個分別用於圖像和文本的對抗網絡(ImgNet 和 TexNet)。

具體來說,LabNet 的目標設定使它可以從多標籤標註中學習到語義特徵。然後,它可以被視爲用於監督兩個階段的模態特徵學習的公共語義空間。第一個階段,在公共的語義空間中將來自不同生成網絡的模態特定的特徵聯繫起來。考慮到深度神經網路的每個輸出層都包含了語義信息,在公共的語義空間中將模態特定的特徵聯繫起來,可以幫助提高模態之間的語義相關性。第二個階段,把語義特徵和模態特定的特徵同時饋送進兩個判別網絡。因此,在相同語義特徵的監督下,兩個模態的特徵分佈最終會趨於一致。

具體來說,LabNet的目標是以允許其從多標籤註釋中學習語義特徵的方式進行構建的。它可以被認爲是一個共同的語義空間,在這個空間中監督兩個階段的情態特徵學習。在第一階段,來自不同發生器網絡的特定於模態的特徵在共同的語義空間中彼此關聯。由於深層神經網絡中的每個輸出層都包含語義信息,因此將共同語義空間中特定於模態的特徵關聯起來有助於提升模態之間的語義相關性。在第二階段,語義特徵和特定於模態的特徵同時饋入兩個鑑別器網絡。結果,兩種模式的特徵分佈趨於在相同語義特徵的監督下變得一致。在本節中,我們將詳細介紹我們的SSAH方法,包括模型制定和方法背後的方法學習算法。

3.1 公式

O= { oi } ni=1

  • n個實例的跨模態數據集
  • oi=(vi,ti,li)
  • viR1×dv 第i個實例的原始圖像特徵
  • tiR1×dt 第i個實例的文本特徵
  • li=[li1,...,lic] 將多標籤註釋分配給 oi
  • c 類別數
  • 如果 oi 屬於第j個類,則 lij=1 ,否則 lij=0
  • 圖像特徵矩陣被定義爲 V
  • 文本特徵矩陣定義爲 T
  • 標籤矩陣爲 L

成對多標籤相似度矩陣 S 用於描述兩個實例中的每一個之間語義相似性

  • Sij=1 意爲 oi oj 相似,否則爲0

在多標籤設置中,兩個實例( oi oj )由多個標籤註釋

  • Sij=1 oi oj 至少分享一個標籤,否則爲0

跨模態哈希的目標是爲這兩種模式學習統一的哈希碼:

Bv,t {−1,1} K

  • K 二進制編碼的長度

使用漢明距離,計算兩個編碼的相似性

  • disH(bi,bj) 漢明距離 ,
  • 內積 bi,bj
  • 使用 disH(bi,bj)=12(Kbi,bj) ,我們可以使用內積來量化兩個二進制代碼的相似度。

給定S,條件B下的S的概率可以表示爲:

p(Sij|B)={δ(Ψij),1δ(Ψij),Sij=1Sij=0(1)

  • δ(Ψij)=11+eΨij
  • Ψij=12<bi,bj>

  • 具有較大內積的兩個實例應該很可能具有相似性。

  • 量化海明空間中的二進制碼之間的相似性的問題因此可以轉化爲編碼的原始特徵的內積的計算。

在這裏,我們構建了一對對抗網絡(ImgNet和TxtNet)來學習圖像和文本模式的單獨哈希函數( Hv,t=fv,t(v,t;θv,t) )。同時,我們構建了一個端到端的自我監督語義網絡(LabNet),以便在學習語義特徵的散列函數的同時,將圖像和文本形態之間的語義相關性建模到共同的語義空間中( Hl=fl(l;θl)

  • fv,t,l —— 哈希函數
  • θv,t,l ——要學習的網絡參數。

通過 Hv,t,l 學習 ,二進制編碼 Bv,t,l 可以通過sign函數按以下方式生成

Bv,t,l=sign(Hv,t,l) { 1,1 } K , (2)

  • Fv,t,ls×n 表示圖像,文本和標籤的共同語義空間中的語義特徵
  • Fv,t,l 對應於深層神經網絡的某些輸出層(ImgNet,TxtNet和 LabNet)

3.2 自我監督的語義生成

以微軟的COCO數據集爲例,有一個實例用多個標籤進行了註釋,例如「人」,「棒球棒」和「棒球手套」。在這種情況下,最自然的想法是,可以將多標籤註釋作爲一種有利的方式,以便在更細粒度的層次上彌合模態之間的語義相關性。我們設計了一個端到端的全連接深層神經網絡,命名爲LabNet,爲不同模式之間的語義相關性建模,以模擬不同形式之間的語義相關性。給定一個實例的多標籤向量,LabNet會逐層提取抽象的語義特徵; 通過這些我們可以監督ImgNet和TxtNet中的特徵學習過程。由於三元組( vi , ti , li )用於描述相同的第i個實例,我們認爲 li 作爲 vi ti 自我監督的語義信息。在LabNet中,通過非線性變換將語義特徵投影到相應的哈希碼中。我們的意圖是語義特徵和它們相應的哈希碼之間的相似關係保存得很好; 這是不同形式之間有效關聯背後的基本前提。因此,對LabNet來說,最終目標可以表述如下:

這裏寫圖片描述

  • lij=12(Fli)T(Flj)
  • Γlij=12(Hli)T(Hlj)
  • Hl 是預測的哈希碼
  • Ll^ 預測標籤
  • 3式中, ȷ1 ȷ2 兩個負對數似然函數
  • ȷ1 用於保持語義特徵之間的相似性
  • ȷ2 用於保留類似標籤信息具有相似散列碼的情況。
  • ȷ3 是學習哈希碼的二值化的近似損失,
  • ȷ4 原始標籤和預測標籤的分類損失

3.3 特徵學習

如上所述,屬於多模態實例的不同模態在語義上是相關的。爲了保持這種語義相關性,我們監督LabNet指導下的兩種模式的特徵學習過程,包括監督語義特徵和學習的二進制編碼。爲了解決圖像模態問題,我們設計了一個名爲ImgNet的端到端特徵學習網絡,該網絡可以將圖像投影到哈希編碼中。通過使用語義網絡監督圖像特徵學習,我們可以在ImgNet和語義網絡之間保持相同的語義相關性。這是在ImgNet中使用時的語義網絡的自我監督角色。同樣,在考慮文本形式時,我們使用語義網絡以同樣的方式監督TxtNet的特徵學習過程。因此, v t 中不同形式的自監督特徵學習的目標函數可寫爲:

這裏寫圖片描述

  • Δv,ti,j=12(Fli)T(Fv,tj)
  • Γv,ti,j=12(Hli)T(Hv,tj)
  • Hv,t 預測的哈希碼
  • Lv,t^ 圖像和文本的預測標籤
  • 超參數 α,γ,η,β
  • ȷLv,t^ 圖像和文本的預測標籤
  • 超參數 α,γ,η,β
  • ȷ1 ȷ2 兩個負對數似然函數
  • ȷ3 ȷ4 是以類似於LabNet中使用的方式定義的近似損失和分類損失

應該指出的是,雖然(3)和(4)式在結構上類似,它們具有不同的含義。因此,我們使用監督信息

相關文章
相關標籤/搜索