CVPR 2019網絡
Rare Event Detection using Disentangled Representation Learning
Ryuhei Hamaguchi, Ken Sakurada, and Ryosuke Nakamura架構
National Institute of Advanced Industrial Science and Technology (AIST)app
{ryuhei.hamaguchi, k.sakurada, r.nakamura}@aist.go.jp函數
Figure 1. The overall concept of the proposed model. From the negative image pairs, the representation learning model (left) learns features that are invariant to trivial events. The rare event detector (right) is then trained on the learned invariant features.學習
MyNote:
本文用disentangled representation方法,解決微小事件(罕見事件,rare event)檢測。核心思想是,把兩幅圖片中,微小變化的部分看出是特殊特徵,而其他內容部分,當作共同部分。解耦模型也是新的,看圖1,它並無採用交叉特殊部分的形式,由於本文最終想要的是fine-tuning這種結構,即輸入自己就是兩幅圖,一個認爲是正常圖,另一個認爲的發生微小事件的圖。但,這種形式比交叉形式更難設計,如何讓特殊特徵s不包含共同特徵c,共同特徵c不包含特殊特徵s。這就是損失函數的任務。本文提出了三種損失函數。ui
Abstract
This paper presents a novel method for rare event detection from an image pair with class-imbalanced datasets. A straightforward approach for event detection tasks is to train a detection network from a large-scale dataset in an end-to-end manner. However, in many applications such as building change detection on satellite images, few positive samples are available for the training. Moreover, scene image pairs contain many trivial events, such as in illumination changes or background motions. These many trivial events and the class imbalance problem lead to false alarms for rare event detection.編碼
問題描述。提出了一種基於類不平衡數據集的圖像對罕見事件(rare event)檢測方法。事件檢測任務的一種直接的方法是從一個大規模數據集中以端到端的方式訓練一個檢測網絡。然而,在許多應用中,如創建變化檢測衛星圖像,不多有正樣本的訓練。此外,場景圖像對包含許多 trivial 事件,如照明變化或背景運動。這些瑣碎的事件和類不平衡問題會致使 rare 事件檢測的錯誤警報。lua
In order to overcome these difficulties, we propose a novel method to learn disentangled representations from only low-cost negative samples. The proposed method disentangles different aspects in a pair of observations: variant and invariant factors that represent trivial events and image contents, respectively.spa
方法簡介。設計
The effectiveness of the proposed approach is verified by the quantitative evaluations on four change detection datasets, and the qualitative analysis shows that the proposed method can acquire the representations that disentangle rare events from trivial ones.
實驗結論。
Introduction
事件檢測的背景:在計算機視覺領域,基於圖像對的事件檢測做爲圖像類似度估計已經獲得了普遍的研究。圖像之間的類似度估計是基本問題之一,它能夠應用於許多任務,如變化檢測[11,14,20,25],圖像檢索與匹配[3,23,33],識別[26,31],立體匹配[9,34]。因爲最近深特徵的成功,圖像比較方法有了實質性的進展。然而,總的來講,他們須要大量的數據集來充分利用深層特徵的表達能力。
件檢測中存在的問題和難點:在圖像類似度估計的背景下,考慮了從圖像對中檢測罕見事件的特殊任務,如檢測一對衛星圖像上的建築物變化,或經過對比產品的圖像來檢測製造缺陷。該任務的一個挑戰在於難以收集訓練樣本。因爲尋找稀有樣本是一項勞動密集型任務,所以訓練數據集中正樣本每每不多。此外,圖像對一般包含許多不感興趣的難處理的(cumbersome)事件(例如,光照變化、圖像配準錯誤、陰影變化、背景運動或季節變化)。這些小事件和類不平衡問題極可能致使了小事件的假警報,或者漏掉一些罕見事件的預警。
本文解決上述問題的方法:提出了一種新的網絡架構,僅使用低成本的負圖像進行解耦表示學習。圖1演示了所提方法的整體概念。經過在圖像內容之間引入類似度約束,訓練網絡將每幅圖像編碼爲兩個獨立的特徵:具體的特徵和共同的特徵。共同的特徵表示對瑣碎事件(trivial event)不變的圖像內容,而特定特徵表示與瑣碎事件相關的混合信息 (例如,光照、陰影或背景運動)。這種解耦只須要經過低成本的負樣原本學習,由於負樣本包含了關於瑣碎事件的豐富信息。一旦得到了共同的特徵,就可使用少許的訓練樣本在學習的表示上創建罕見事件的檢測器。
Method
Overview
圖 2 顯示了本文提出的模型。該模型由共享參數的兩個VAEs分支組成。每一個VAE提取兩種類型的特徵表示:共同的和特定的。它們分別表明輸入圖像對的不一樣方面,不變因子和變因子。在罕見事件(rare event)檢測中,具體特徵表示trivial事件,共同特徵表示不受trivial事件影響的圖像內容。爲了實現這一分離,引入了公共特徵之間的類似性約束。這些共同特徵的關鍵方面是它們對普通事件是不變的,這應該有助於從trivial事件區分出目標事件。
Figure 2. Schematics of the proposed representation learning method. The model takes a pair of images xA and xB as input. For each image, the encoder extracts common and specific features, and the decoder reconstructs the input. The key feature of the model is the similarity loss Lsim. This loss constrains the common features to extract invariant factors between xA and xB. Another feature is the activation loss Lact. This loss encourages the mean vector of the common features (µ c ) to be activated, which avoids a trivial solution – (σ c , µ c ) = (1, 0) – for any input.
Variational Auto-encoder
變分式自動編碼器 VAE 是一種深層生成模型,將輸入 x∈X 與潛變量 z∈Z 的聯合分佈定義爲 。一般將
設置爲均值和單位方差均爲零的高斯分佈。
利用帶參數 θ 的深度神經網絡 (decoder) 對生成分佈 進行建模,而且經過最大化邊際似然度
pθ(x) = ∑z pθ(x, z) 來訓練模型參數。
然而,當p (x|z) 是一個神經網絡時,邊際似然就變得難以處理。所以,改用如下變分下界:
在上式中, 是另外一種近似後驗分佈
的深度神經網絡 (encoder)。Eq.(1) 的第一項能夠看做是經典的自動編碼器的重構偏差,第二項能夠看做是正則化項。
爲了使下界在編碼器參數可微,使用了一種稱爲從新參數化(reparameterization)的技術:
在這裏,⊙ 表示元素相乘。在這種狀況下,編碼器成爲一個輸出後驗分佈的均值和方差的深度神經網絡。
Representation Learning
VAE提供了一種無監督的方法來學習潛在(latent)表示。給定輸 入x,可使用編碼器分佈 推斷潛在表示。其目的是學習編碼器分佈
,其中的潛變量被解開,使zc和zs分別表明給定的圖像對的不變因子和變因子(invariant and variant factors)。爲此,構建了一個模型,其中包含兩個相互共享參數的 VAE 分支。如圖 2 所示,將輸入圖像
輸入到不一樣的VAE分支中,提取每一個分支的潛變量zc和zs。利用如下損失函數對 VAE 的參數進行訓練:
分別爲輸入圖像 和
的 VAE 損失。Lsim 是一個類似性損失函數,它約束共同特徵來表示成對圖像之間的不變因子。Lact 是一個激活丟失函數,它鼓勵激活共同特性,以免包含 trivial 的解。
Variational auto-encoder loss
VAE各分支的聯合分佈成爲
推理模型是:
VAE的損失函數變爲:
Similarity loss
爲了將公共特徵編碼爲輸入圖像對中的不變因子,在xA和xB中提取的公共特徵對之間引入以下類似性損失
其中 D 定義潛在變量之間的統計距離。一個簡單的候選是兩個後置的中心 和
之間的 L2 或 L1 距離。可是,如圖3,當後驗分佈在每一個潛在維度上的方差不一樣時,質心之間的距離不反映分佈之間的距離。
所以,本文使用一種馬氏距離以下:
Activation loss
類似約束的一個問題是存在一個 trivial 解(trivial solution)。經過將公共特徵的均值向量設爲全部的零,能夠徹底知足約束條件。在這種狀況下,輸入中的全部信息都由特定特徵編碼,共同特徵不表明任何信息。爲了不這種狀況,引入了另外一個損失,以鼓勵激活公共特性。
Fine-tuning
如今已經得到了能夠分別提取公共特徵和特定特徵的編碼器。下一步,咱們利用從每幅圖像中提取的共同特徵 和
,創建一個事件檢測器網絡Cψ。
利用交叉熵損失在一個ground truth label t上訓練分類器。
在微調階段,聯合訓練分類器參數和編碼器參數。因爲常見特徵表示的圖像內容不受 trivial事件的影響,所以即便使用少許的標籤,穩定的事件檢測器也能夠有效地訓練。在微調階段,負樣本隨機(欠)取樣,以得到與正樣本相同數量的樣本。