無聊讀論文:視覺注意力模型RARE2012

Riche, N., Mancas, M., Duvinage, M., Mibulumukini, M., Gosselin, B., & Dutoit, T. (2013). RARE2012: A multi-scale rarity-based saliency detection with its comparative statistical analysis. Signal Processing: Image Communication28(6), 642–658. https://doi.org/10.1016/j.image.2013.03.009
 
一篇老早老早之前的文章啦,今天看到有文章使用它的方法,特意拜讀下。
視覺注意力機制這東西咱們感興趣,那就是由於它有用呀。好比幫助人機交互界面優化,讓用戶使用交互按鈕更加舒服;廣告設計的評估;視頻圖像數據壓縮,着重保留更感興趣的圖像信息。機器人的視覺感知等等吧。
關於人類的視覺注意力的通用定義,不知道如今生物學上有沒有研究明白這是怎麼回事,反正在這篇文章發表的時候是沒有滴。可是通常意義上講,人類的注意力能夠定義爲對傳入刺激進行優先排序並有選擇地關注其中一部分的天然能力。行,有個初步的定義也好呀。那視覺上的注意力咋搞呢,大腦接收到的圖像信號並不僅是一個待排序的信號序列呀。
在計算機視覺中,對注意力機制的探索大部分依賴於「saliency maps」這一律念,字面意思就是「顯著性圖」。簡單來說,「saliency maps」就是對某一個模型的輸入信號作了一個映射,映射的結果就是,對模型比較重要的信號會獲得一個較強的相應。
那麼對於視覺注意力機制來說,輸入就是圖像;人眼容易被吸引的地方就是比較重要的信號。因此,解釋視覺注意力機制,就是想找到一個更好的「saliency maps」。它應該迅速的根據輸入圖像告訴咱們,那些地方對咱們的視覺感知系統很是有吸引力。
按照這樣的思路,「saliency maps」中就包含了兩種機制。一種是自下而上的注意力,也稱爲刺激驅動的或外在的注意力。另外一種是自上而下的,也稱爲任務驅動的或內生的注意力,它集成了觀察者在特定狀況下可能具備的特定知識(任務,場景類型的模型,可識別的對象等)。而RARE2012純粹是自下而上的,由於自下而上的方法性能更好。就是徹底依靠輸入圖像信息,不須要考慮其餘決策機制,固然性能更好辣。
文章對比了當年流行的好幾種 方法,結論就是他們的方法挺好。哈哈哈
他們的方法:
-------------------------------------------------------------------------------------------
算法第一階段:
第一步:首先用主成分分析PCA的方法,把rgb三通道的圖像映射到三個線性不相關空間。就是拆分紅了三個通道,這三個通道中,channal1主要包含亮度信息,而channal2和channal3則包含色度的信息。可是三個通道的信息都是獨立的。看起來它的三個通道有點像hsv嘛,hsv就是明度、色調和飽和度。不過具體怎樣分解的我不知道哦,還要看源碼,文章中沒說。
第二步:對三個通道的圖像直接用PCA計算rarity。哎,這裏仍是得看源碼,對圖像進行主成分分析獲得降維我能夠理解,那上邊用PCA方法拆分通道是咋回事呢?無論如何,這樣作獲得了三張rarity分佈圖。這樣作就是在提取圖像中的低級顏色特徵,固然也包括亮度分佈特徵。
第三步:而後再對上述三個通道圖像利用Gabor濾波器提取方向特徵圖。選擇Gabor濾波器是由於Gabor相似於大腦中視覺皮層(V1)的簡單神經處理過程。
Gabor定義爲: 
Gabor與人類視覺系統中簡單細胞的視覺刺激響應很是類似。它在提取目標的局部空間和頻率域信息方面具備良好的特性。Gabor小波對於圖像的邊緣敏感,可以提供良好的方向選擇和尺度選擇特性,並且對於光照變化不敏感,可以提供對光照變化良好的適應性。
用Gabor 函數造成的二維Gabor 濾波器具備在空間域和頻率域同時取得最優局部化的特性,所以可以很好地描述對應於空間頻率(尺度)、空間位置及方向選擇性的局部結構信息。Gabor就是用來提取圖像中的空間方向和紋理特徵
文章中對Gabor分別輸入8個方向,這樣對於一幅輸入圖像來說,一共會有8個結果。這8幅輸出要融合到1張輸出圖像中。
同一角度不一樣方向的輸出融合:
根據公式(2)對8張不一樣方向圖計算效率係數:
根據EC大小對8張方向圖排序。每張方向圖都乘以權重:i/N 。N=8,i就是這張方向圖的EC排第幾位。文中設了一個閾值,篩選掉EC過小的方向圖:
T=0.3 是做者認爲比較合理的值。
而後融合8張方向圖:
這樣PCA方法獲得的三張圖像channal一、channal2和channal3通過Gabor提取到了3幅紋理方向的rarity圖。
-------------------------------------------------------------------------------------------
第二階段:
這一階段的稀有度機制纔是rare2012的關鍵,畢竟名字就是這個嘛。
方法就是:統計在設定的尺度範圍內,該像素出現的頻率。
n_in_i 是當前像素j的灰度值爲i的機率(比例), n_in_i 就是根據rarity圖的直方圖獲得的。這個公式說的有點不明不白的,S是啥?看起來是沒有歸一化的rarity圖中的灰度最大值。無論怎樣,它的思想就是統計圖像中某一灰度出現的頻率,認爲是某一個灰度在局部區域出現的機率。這就是該像素的注意力得分,就是Attention()。
Fig. 2中給出了一個例子,輸入左圖,藍色的區域在整幅圖像中出現的機率較低,那麼它在稀有度圖中的值就偏高。
第二階段中,對第一階段獲得的6張map計算attention。
-------------------------------------------------------------------------------------------
第三階段:
對第二階段獲得的6張attention map進行融合操做。
首先是通道內融合,由channal1獲得的顏色特徵圖紋理方向圖計算attention後,進行融合。融合方法爲:
就是EC和map點乘。這裏出現了S哦,不過它是否是公式5中的S呢,這個要看下源碼,論文中沒說。N=2,爲啥是2,哪裏來的兩張圖,也不明白。
 
先無論這些地方,看最後,rare2012是如何獲得最終的輸出的:
根據第三階段的融合操做,三個通道的圖像最後輸出了三個結果。
這三個結果再融合起來,就是最後的輸出了。融合的方法就是第一階段的第三步,融合gabor後的8張圖像的方法。首先計算效率係數,而後排序,而後乘權重,閾值篩選。
rare2012是由rare2007和rare2011發展而來,每一次改進都帶來的一些創新。性能更好,考慮的特徵更全面。俺麼rare2012結果如何?
對比結果中,上面是眼動監測的結果,也就是人眼實際的聚焦狀況。下面是rare2012的結果。看起來挺好的嘛。
可是rare2012有時也有徹底出錯的時候。fig7中後面三個數據的結果,rare2012都錯了。看來注意力機制仍是要引入充分合理的自上而下的邏輯判斷。
不過rare2012在當年對比同類模型,仍是至關有優點的。固然論文中有定量的性能和準確率分析。
相關文章
相關標籤/搜索