CVPR 2020 Oral | 曠視研究院提出Circle Loss,革新深度特徵學習範式

IEEE 國際計算機視覺與模式識別會議 CVPR 2020 (IEEE Conference on Computer Vision and Pattern Recognition) 將於 6 月 14-19 日在美國西雅圖舉行。近日,大會官方論文結果公佈,曠視研究院 16 篇論文被收錄,研究領域涵蓋物體檢測與行人再識別(尤其是遮擋場景),人臉識別,文字檢測與識別,實時視頻感知與推理,小樣本學習,遷移學習,3D 感知,GAN 與圖像生成,計算機圖形學,語義分割,細粒度圖像等衆多領域,取得多項領先的技術研究成果,這與即將開源的曠視 AI 平臺 Brain++ 密不可分。 

本文是曠視 CVPR 2020 論文系列解讀第 4 篇,它提出用於深度特徵學習的 Circle Loss,從相似性對優化角度正式統一了兩種基本學習範式(分類學習和樣本對學習)下的損失函數。通過進一步泛化,Circle Loss 獲得了更靈活的優化途徑及更明確的收斂目標,從而提高所學特徵的鑑別能力;它使用同一個公式,在兩種基本學習範式,三項特徵學習任務(人臉識別,行人再識別,細粒度圖像檢索),十個數據集上取得了極具競爭力的表現。本文已入選 CVPR 2020 Oral 論文。

論文名稱:Circle Loss: A Unified Perspective of Pair Similarity Optimization 

論文鏈接:https://arxiv.org/abs/2002.10857

目錄

  • 導語

  • 簡介

  • 統一相似性優化視角

  • Circle Loss

    • 自定步調的加權方式

    • 類內餘量和類間餘量

    • 優勢

  • 實驗

  • 結論

  • 參考文獻

  • 往期解讀

導語

深度特徵學習有兩種基本範式,分別是使用類標籤和使用正負樣本對標籤進行學習。

使用類標籤時,一般需要用分類損失函數(比如 softmax + cross entropy)優化樣本和權重向量之間的相似度;使用樣本對標籤時,通常用度量損失函數(比如 triplet 損失)來優化樣本之間的相似度。

這兩種學習方法之間並無本質區別,其目標都是最大化類內相似度( )和最小化類間相似度( )。從這個角度看,很多常用的損失函數(如 triplet 損失、softmax 損失及其變體)有着相似的優化模式:

它們會將 組合成相似度對 (similarity pair)來優化,並試圖減小( )。在( )中,增大 等效於降低 。這種對稱式的優化方法容易出現以下兩個問題,如圖 1 (a) 所示。

1.1 優化缺乏靈活性

上的懲罰力度是嚴格相等的。換而言之,給定指定的損失函數,在 上的梯度的幅度總是一樣的。例如圖 1 (a)中所示的 A 點,它的 已經很小了,可是, 會不斷受到較大梯度。這樣現象低效且不合理。

1.2 收斂狀態不明確

優化 ( ) 得到的決策邊界爲 (m 是餘量)。這個決策邊界平行於 ,維持邊界上任意兩個點(比如 T= (0.4, 0.7) 和 T'= (0.2, 0.5))的對應難度相等,這種決策邊界允許模棱兩可的收斂狀態。

比如,T 和 T' 都滿足了 的目標,可是比較二者時,會發現二者之間的分離量只有 0.1,從而降低了特徵空間的可分性。

簡介

▲ 圖1. 降低 ( ) 的常用優化方法與新提出的降低 ( α α ) 的優化方法之間的對比

爲此,曠視研究院僅僅做了一項非常簡單的改變,把 ( ) 泛化爲 ( α α ),從而允許 能以各自不同的步調學習。

具體來講,把 α α 分別實現爲 各自的線性函數,使學習速度與優化狀態相適應。相似度分數偏離最優值越遠,加權因子就越大。

如此優化得到的決策邊界爲 α α ,能夠證明這個分界面是 ( ) 空間中的一段圓弧,因此,這一新提出的損失函數稱之爲 Circle Loss,即圓損失函數。

由圖 1(a) 可知,降低 ( ) 容易導致優化不靈活(A、B、C 相較於 的梯度都相等)以及收斂狀態不明確(決策邊界上的 T 和 T' 都可接受);而在 Circle Loss 所對應的圖 1 (b) 中,減小 ( α α ) 會動態調整其在 上的梯度,由此能使優化過程更加靈活。

對於狀態 A,它的 很小(而 已經足夠小),因此其重點是增大 ;對於 B,它的 很大 (而 已經足夠大),因此其重點是降低 。此外,本文還發現,圓形決策邊界上的特定點 T (圓弧與 45 度斜線的切點)更有利於收斂。

因此,Circle Loss 設計了一個更靈活的優化途徑,通向一個更明確的優化目標。

Circle Loss 非常簡單,而它對深度特徵學習的意義卻非常本質,表現爲以下三個方面:

  1. 統一的(廣義)損失函數。從統一的相似度配對優化角度出發,它爲兩種基本學習範式(即使用類別標籤和使用樣本對標籤的學習)提出了一種統一的損失函數;

  2. 靈活的優化方式。在訓練期間,向 的梯度反向傳播會根據權重 α α 來調整幅度大小。那些優化狀態不佳的相似度分數,會被分配更大的權重因子,並因此獲得更大的更新梯度。如圖 1(b) 所示,在 Circle Loss 中,A、B、C 三個狀態對應的優化各有不同;

  3. 明確的收斂狀態。在這個圓形的決策邊界上,Circle Loss 更偏愛特定的收斂狀態(圖 1 (b) 中的 T)。這種明確的優化目標有利於提高特徵鑑別力。

統一的相似性優化視角

深度特徵學習的優化目標是最大化 ,最小化 。在兩種基本學習範式中,採用的損失函數通常大相徑庭,比如大家熟知的 sofmax loss 和 triplet loss。

這裏不去在意相似性計算的具體方式——無論是樣本對之間的相似性(相似性對標籤情況下)還是樣本與類別代理之間的相似性(類別標籤情況下)。

本文僅僅做這樣一個假設定義:給定特徵空間中的單個樣本 x,假設與 x 相關的類內相似度分數有 K 個,與 x 相關的類間相似度分數有 L 個,分別記爲

爲了實現最大化 與最小化 的優化目標,本文提出把所有的 兩兩配對,並通過在所有的相似性對上窮舉、減小二者之差,來獲得以下的統一損失函數:

這個公式僅需少量修改就能降級得到常見的 triplet 損失或分類損失,比如得到 AM-Softmax 損失:

或 triplet 損失:

Circle Loss

4.1 自定步調的加權方式

暫先忽略等式 (1) 中的餘量項 m 並對 進行加權,可得到新提出的 Circle Loss:

再定義 的最優值爲 的最優值爲 。當一個相似性得分與最優值偏離較遠,Circle Loss 將分配較大的權重,從而對它進行強烈的優化更新。爲此,本文以自定步調(self-paced)的方式給出瞭如下定義:

4.2 類內餘量和類間餘量

不同於優化 ( ) 的損失函數,在 Circle Loss 中, 是不對稱的,本文爲其各自定義了餘量 ,這樣可得到最終帶餘量的 Circle Loss:

通過推導決策邊界,本文進一步分析 。爲簡單起見,這裏以二元分類的情況進行說明,其中決策邊界是在 處得到。根據等式 (5) 和 (6) ,可得到決策邊界:

其中

Circle Loss 有 5 個超參數,即 γ 。通過將 。可將等式 (7) 約簡爲:

基於等式 (8) 定義的決策邊界,可對 Circle Loss 進行另外一番解讀。其目標是優化 。參數 m 控制着決策邊界的半徑,並可被視爲一個鬆弛因子。

換句話說,Circle Loss 期望 。因此,超參數僅有 2 個,即擴展因子 γ 和鬆弛因子 m。

4.3 優勢

Circle Loss 在    和    上的梯度分別爲:

圖 2(c) 在二元分類的實驗場景中可視化了不同 m 值設置下的梯度情況,對比圖 2(a) 和 (b) 的triplet 損失和 AMSoftmax 損失的梯度,可知 Circle Loss 有這些優勢:在 上能進行平衡的優化、梯度會逐漸減弱、收斂目標更加明確。

▲ 圖2. 損失函數的梯度:(a) 三重損失; (b) AMSoftmax 損失; (c) 新提出的 Circle 損失

上圖的可視化結果表明,triplet 損失和 AMSoftmax 損失都缺乏優化的靈活性。它們相對於 上能進行平衡的優化、梯度會逐漸減弱、收斂目標更加明確。

▲ 圖2. 損失函數的梯度:(a) 三重損失; (b) AMSoftmax 損失; (c) 新提出的 Circle 損失

上圖的可視化結果表明,triplet 損失和 AMSoftmax 損失都缺乏優化的靈活性。它們相對於 (左圖)和 (右圖)的梯度嚴格相等,而且在收斂方面出現了陡然的下降(相似度配對 B)。

比如,在 A 處,類內相似度分數 已接近 1 ,但仍出現了較大的梯度。此外,決策邊界平行於 (右圖)的梯度嚴格相等,而且在收斂方面出現了陡然的下降(相似度配對 B)。

比如,在 A 處,類內相似度分數 已接近 1 ,但仍出現了較大的梯度。此外,決策邊界平行於 ,這會導致收斂不明確。

相對而言,新提出的 Circle Loss 可根據相似性得分與最優值的距離,動態地爲相似度分數分配不同的梯度。對於 A(

相關文章
相關標籤/搜索