最先進的目標檢測器竟對大象「視而不見」

2020-01-07 11:44

導語:即使最先進的目標檢測器也會存在一些常見故障!

最先進的目標檢測器竟對大象「視而不見」

雷鋒網(公衆號:雷鋒網)注:本文作者劉平平,未經允許禁止轉載。 

現在常用的對象檢測器存在一些顯而易見而又極易被忽視的問題,正如同對「屋裏的大象」視而不見。分析和優化這些問題對於圖像識別技術的進步顯得尤爲重要。

現今,圖像識別技術在自動駕駛、醫學影像以及大熱的機器視覺等領域發揮着不可或缺的作用,而穩定的系統對於圖像識別的優劣起着關鍵作用。但即使是最先進的對象檢測器也存在一些常見的故障:當將一個圖像中的對象移植到另一個圖像中,將導致對象檢測器識別產生偏差甚至無法識別。      

最先進的目標檢測器竟對大象「視而不見」

究竟是什麼原因導致識別故障?是否有方法優化解決這個問題?約克大學的Amir Rosenfeld、John K. Tsotsos和多倫多大學Richard Zemel等人發表的《The Elephant in the Room》詳細研究並回答了這些問題。

發現問題

研究人員提取一幅圖片中的「大象」作爲目標移植到另一幅圖片中,發現幾個明顯的問題(如圖1):   

最先進的目標檢測器竟對大象「視而不見」

圖 1

1、監測不穩定:目標可能不能被檢測到且被檢測到的概率大大降低;

2、報告的對象身份不一致:根據位置,該目標可能被檢測爲多種不同的類別;

3、目標會引起非局部影響:與目標不重疊的對象可以切換身份、邊界框或完全消失。

爲進一步驗證上述問題是否存在,研究人員又隨機選取大量圖片進一步實驗。 

不出所料:當將一個圖像中的對象移植到另一個圖像中,將導致對象檢測器的識別產生偏差甚至無法識別。且在現行最精準的檢測器faster_rcnn_nas_coco 上運用幾種不同的模型均不同程度出現這種問題。

上述實驗均爲隨機選取的圖片,因此所選取的對象是兩個從未在一張圖片中出現的特定組合。但是,網絡成功處理此類圖片及組合很困難。爲排除此問題對實驗造成的干擾,研究人員從一個圖像中複製一個對象,並將其複製到同一圖像中的另一個位置。

最先進的目標檢測器竟對大象「視而不見」

圖 2

結果表明,當移動目標時,部分遮蔽以及上下文都對識別產生一定的影響(圖2)。例如,在 b 欄奶牛的腳在靠近電視時變成了遙控器。在 d 欄當植物的一部分被遮擋而人的手在附近時,植物的底部被識別爲手提包或杯子。

原因分析

爲何對象檢測器會出現這個問題?研究人員進一步進行實驗試圖探索此問題。

研究人員選取一張圖片,圖片中的一隻僅露出局部身體的貓被錯誤地識別爲斑馬。研究人員分別做了以下實驗:

1、丟棄檢測邊界框之外的所有像素:不能固定對象的分類,貓仍被識別爲斑馬,這表明ROI (region-of-interest)內的特徵可能會引起混淆;

2、丟棄ROI內的所有非貓像素,貓被識別爲貓,分類固定;

3、在邊界框外的範圍內再次添加隨機噪聲:貓再次被識別爲斑馬,檢測不正確。

這個實驗表明ROI外的特徵會影響最終的檢測結果。

研究人員通過匹配探測器在原始圖像和修改後的圖像中生成的一組邊界框來計算場景的識別發生了多少次變化。計算公式如下:

最先進的目標檢測器竟對大象「視而不見」     

通過識別計算29張不同圖片,他們統計了已移植對象導致對任何原始對象的檢測被修改的位置的平均位置百分比,結果如下表。閾值τ是最小重疊,以將兩個相同類別的邊界框計算爲匹配項。    

最先進的目標檢測器竟對大象「視而不見」

Affected-class-Agnostic: 邊界框之間的類別不可知匹配的結果;

Affected-Occluded-20: 結果僅計算每個原始對象最多20%的區域被目標對象覆蓋的情況;

Affected-No-Occ: 目標對象不會遮擋任何物體的結果。 

 

幾點推論 

通過上述實驗,研究人員針對對象檢測器存在常見故障發生的原因有以下幾個推論:

1、部分遮蓋:部分遮蓋仍是對象檢測器發展的一大挑戰。但已有科學家提出數據驅動、局部證據定義目標等方法解決因目標遮蓋而設別偏差的問題。

2、超出分佈的示例:研究人員將目標移植到另一張圖片中會使得目標邊框產生突變邊緣,邊緣修改後的圖像在訓練集的圖像分佈下發生的可能性很小。且這些輕微的擾動如邊緣突變也會造成網絡輸出發生巨大變化,從而導致識別偏差。

3、信號保存:空間池因其效率和不變形使得它對空間變形問題很有效,但是目前研究表明空間池分層阻礙了網絡的位移不變。

4、上下文推理:現有的對象檢測器不具備上下文推理能力,而網絡推理會對對象類別及其相對空間佈局之間的相互作用進行編碼,這些上下文推理往往會造成識別偏差,如圖2。

5、非極大值抑制:由於存在非極大值抑制,移植對象過程中使得其他對象遮蓋狀態發生變化,使得距被移植對象較遠的對象識別也出現問題。

6、功能干擾:現行對象檢測器使用從卷積層獲得的特徵,以生成最終的物體類別和矩形邊界框預測。這使得邊界框以內的非對象部分也成爲識別對象的一部分,雖然在對象特徵不明顯時能根據非對象部分上下文推測對象類別,但是同時也會干擾對象正確識別。

在所有原因中,功能干擾是最爲根本的原因,而由部分遮擋或上下文推理引起的影響是這個問題的具體體現。

即使這個問題現在很難解決,科學家Tsotsos仍然提出瞭解決模型:一旦完成了對視覺層次的第一遍處理,主導信號便向下傳播通過層次結構,執行空間和特徵衰減,以便信號的下一層將包含有關感興趣對象的信息,即較少與周圍特徵糾纏在一起。這個模有望減輕識別偏差問題,而在將來是否會確實會發作用,我們拭目以待。