CSAR——Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution

時間 2019-11-09

標籤 csar channel wise spatial feature modulation network single image super resolution 欄目系統網絡简体版

原文原文鏈接

1. 摘要

CNN 中的特徵包含着不一樣類型的信息，它們對圖像重建的貢獻也不同。然而，如今的大多數 CNN 模型卻缺乏對不一樣信息的辨別能力，所以也就限制了模型的表示容量。python

另外一方面，隨着網絡的加深，來自前面層的長期信息很容易在後面的層被削弱甚至消失，這顯然不利於圖像的超分辨。網絡

做者提出了一個通道和空間特徵調製（CSFM）網絡，其中一系列特徵調製記憶（FMM）模塊級聯在一塊兒來將低分辨率特徵轉化爲高信息量的特徵。而在每一個 FMM 內部，則集成了許多通道和空間注意力殘差塊（CSAR）以及一個用來保留長期信息的門控融合節點（GF）。性能

2. 網絡結構

2.1. CSAR（Channel-wise and Spatial Attention Residual ）

進來一個特徵 Hi，先通過卷積-ReLU-卷積獲得特徵 U，卷積核都爲 3×3。spa

CA 單元包含全局空間池化-卷積-ReLU-卷積-Sigmoid，卷積核都爲 1×1，第一層卷積通道數變爲 C/r，第二層卷積通道數爲 C。3d

SA 單元包含卷積-ReLU-卷積-Sigmoid，卷積核都爲 1×1，第一層卷積通道數變爲 C*i，第二層卷積通道數爲 1。code

獲得通道和空間的兩個 mask 後，分別和特徵 U 相乘，而後再將兩個結果拼接起來通過一個 1×1 的卷積將通道數變爲 C，最後和 Hi 相加獲得輸出特徵 Ho。blog

在論文中，做者設置 r=16，i=2，CSAR 的一個 TensorFlow 實現以下所示。圖片

def CSAR(input, reduction, increase):
    """
    @Channel-wise and Spatial Feature Modulation Network for Single Image Super-Resolution
    Channel-wise and spatial attention residual block
    """

    _, width, height, channel = input.get_shape()  # (B, W, H, C)

    u = tf.layers.conv2d(input, channel, 3, padding='same', activation=tf.nn.relu)  # (B, W, H, C)
    u = tf.layers.conv2d(u, channel, 3, padding='same')  # (B, W, H, C)

    # channel attention
    x = tf.reduce_mean(u, axis=(1, 2), keepdims=True)   # (B, 1, 1, C)
    x = tf.layers.conv2d(x, channel // reduction, 1, activation=tf.nn.relu)     # (B, 1, 1, C // r)
    x = tf.layers.conv2d(x, channel, 1, activation=tf.nn.sigmoid)   # (B, 1, 1, C)
    x = tf.multiply(u, x)   # (B, W, H, C)

    # spatial attention
    y = tf.layers.conv2d(u, channel * increase, 1, activation=tf.nn.relu)    # (B, W, H, C * i)
    y = tf.layers.conv2d(y, 1, 1, activation=tf.nn.sigmoid)     # (B, W, H, 1)
    y = tf.multiply(u, y)  # (B, W, H, C)

    z = tf.concat([x, y], -1)
    z = tf.layers.conv2d(z, channel, 1, activation=tf.nn.relu)  # (B, W, H, C)
    z = tf.add(input, z)

    return z