RAM: Residual Attention Module for Single Image Super-Resolution

1. 摘要

注意力機制是深度神經網絡的一個設計趨勢,其在各類計算機視覺任務中都表現突出。可是,應用到圖像超分辨領域的注意力模型大都沒有考慮超分辨和其它高層計算機視覺問題的自然不一樣。python

做者提出了一個新的注意力模型,由針對 SR 問題優化的新的通道和空間注意力機制以及將這二者結合起來的融合機制組成。基於此,做者設計了一個殘差注意力模塊(RAM)以及用來超分辨的 SRRAM 網絡。網絡

2. 介紹

一般,大多數基於 CNN 來進行圖像超分辨的方法在內部同等地處理全部類型的信息,這可能沒法有效地區份內容的詳細特徵(例如低頻和高頻信息)。換句話說,網絡選擇性地使用特徵的能力有限。dom

最近,注意力機制是各類計算機視覺問題中值得注意的網絡結構之一。它容許網絡從新校準提取的特徵圖,從而能夠進行更加自適應和有效的訓練。許多研究者也嘗試了將注意力模型引入圖像超分辨領域,但卻都是從其餘視覺任務(好比分類)中直接借鑑來的,針對超分辨問題則可能不是最優的。ide

所以,做者提出了一個新的注意力模型,能夠有效地將通道注意力和空間注意力融合起來,而且是專門針對圖像超分辨問題設計的。將這個注意力模型和基於 ResNet 的結構相結合,做者設計了一個 SRRAM 網絡取得了比以往方法更好的效果。函數

3. 網絡結構

3.1. 一些相關的注意力機制

RCAB 只有通道注意力,CBAM 以順序的方式引入通道注意力和空間注意力,而 CSAR 則以並行的方式引入通道注意力和空間注意力。具體細節可參閱每篇論文閱讀筆記。學習

3.2. RAM

在之前的方法中,通道注意力(CA)大多采用平均池化或者最大池化。可是,做者認爲超分辨問題旨在恢復出圖像的高頻成分,所以利用通道的高頻特性來學習注意力更加合理。因此,這裏採起方差池化,也就是求得每一個通道大小爲 W×H 的特徵圖的方差。後續步驟與以前方法相似,經過兩層神經網絡來預測注意力圖。優化

在空間注意力(SA)中,每一個通道表明着一種濾波器,不一樣的濾波器負責提取圖像的不一樣特徵。例如,在提取到的邊緣或複雜紋理特徵圖中,更詳細的信息,即來自複雜濾波器的信息更重要。另外一方面,在該區域幾乎沒有諸如天空或漫畫圖像的均勻區域之類的高頻份量的狀況下,相對較不詳細的信息更重要而且須要被關注。也就是說,咱們須要區別對待不一樣的通道,而不是像以前的注意力機制那樣直接對通道維度進行壓縮。這裏,做者採用了深度可分離卷積,針對每一個通道的特徵分別卷積獲得注意力圖。spa

最後,將通道注意力圖和空間注意力圖相加後通過一個 Sigmoid 函數再與原特徵相乘便可,與殘差網絡結合便獲得了上圖所示的 RAM 結構。其一個 TensorFlow 實現以下。.net

def RAM(input, reduction):
    """
    @Residual Attention Module for Single Image Super-Resolution
    Residual Attention Module
    """

    _, width, height, channel = input.get_shape()  # (B, W, H, C)

    u = tf.layers.conv2d(input, channel, 3, padding='same', activation=tf.nn.relu)  # (B, W, H, C)
    u = tf.layers.conv2d(u, channel, 3, padding='same')  # (B, W, H, C)

    # channel attention
    _, x = tf.nn.moments(u, axes=[1, 2], keep_dims=True)   # (B, 1, 1, C)
    x = tf.layers.conv2d(x, channel // reduction, 1, activation=tf.nn.relu)     # (B, 1, 1, C // r)
    x = tf.layers.conv2d(x, channel, 1)   # (B, 1, 1, C)

    # spatial attention
    filter = tf.random_normal([3, 3, int(channel), 1], stddev=0.01)
    y = tf.nn.depthwise_conv2d(u, filter, strides=[1, 1, 1, 1], padding='SAME')     # (B, W, H, C)

    z = tf.add(x, y)    # (B, W, H, C)
    z = tf.nn.sigmoid(z)
    z = tf.multiply(u, z)
    z = tf.add(input, z)

    return z

3.3. SRRAM

總體網絡結構由特徵提取和上採樣組成,特徵提取由 R 個 RAM 模塊以及長跳躍鏈接組成,上採樣網絡負責提升圖像的分辨率。設計

4. 實驗結果

4.1. Ablation studies

引入 CA 後模型在全部數據集上的平均表現比基線模型要高出 0.1 dB,同時引入 CA 和 SA 後模型表現繼續有更大提高,並且在大部分狀況下也都優於其餘注意力機制。

4.2. 客觀和主觀評價對比

image.png

獲取更多精彩,請關注「seniusen」!

相關文章
相關標籤/搜索