ICCV2019 oral:Wavelet Domain Style Transfer for an Effective Perception-distortion Tradeoff in Si...

引言算法

  基於低分辨率的圖像恢復高分辨圖像具備重要意義,近年來,利用深度學習作單張圖像超分辨主要有兩個大方向:一、減少失真度(distortion, 意味着高PSNR)的圖像超分辨,這類方法主要最小化均方偏差;二、提升感知質量(perception)的圖像。這類方法主要利用GAN來作約束,使得生成的圖像和真實的高分辨率圖像儘量符合相同分佈。這兩大方向存在一種tradeoff,由於一般低失真度(高PSNR)的圖像每每感知質量不高,不符合人眼認知,而高感知質量(本文用NRQM指標度量,高NRQM)的圖像,用PNSR指標衡量較低。以下圖:
網絡

 

 

   當前有工做考慮分別用兩個網絡訓練生成低失真度和高感知質量的圖像,再進行插值融合。然而圖像的objective quality和perception quality由圖像的不一樣部分影響,若是將目標圖像做爲總體優化,提升objective quality時,perception quality會降低,反之亦然。所以本文提出一種新的兩圖像(低失真度和高感知圖像)融合策略。本文利用小波變換將圖像分解成低頻部分和高頻部分,低頻部分影響objective quality,高頻部分影響perception quality.框架

 


Motivation(動機)函數

  論文將利用CX算法獲得的高分辨圖像$A_p$(high perception quality)、EDSR算法獲得的高分辨圖像$A_o$(high objective quality)、GroundTruth進行Haar小波分解,獲得一個低頻子帶和三個高頻自帶,並展現它們的直方圖,發現$A_o$圖像低頻部分和GroundTruth對應的低頻部分分佈很接近,而$A_p$的三個高頻子帶的分佈和GroundTruth對應的高頻子帶分佈很接近。學習

 


算法:優化

  將$A_o$分解爲 $LL^{o}, LH^{o}, HL^{o}, HH^{o}$, $A_p$分解爲$LL^{p}, LH^{p}, HL^{p}, HH^{p}$, 融合後的圖像子帶$LL^{r}$, $LH^{r}$, $HL^{r}$, $HH^{r}$.算法整體框架以下:spa

   利用LSE網絡,以$LL^{o}$做爲輸入恢復$LL^{r}$,利用WDST網絡,以$LH^{o}$,$LH^{p}$,$LH^{r}$做爲網絡輸入,其中$LH^{r}$做爲可訓練參數(具體細節後面再說)。$HL^{r}$,$HH^{r}$同理可得。3d

LSE網絡以下:blog

WDST網絡以下:get

第一部分:重構$LL^{r}$

  考慮GroundTruth的$LL^{gt}$子帶和$LL^{o}$最類似,直接用$LL^{o}$恢復。利用VDSR網絡思想,網絡學習$LL^{gt}$和$LL^{o}$的殘差。損失函數以下:

  

   其中$LL^{r}$爲$LL^{o}$和網絡的輸出。重構網絡爲LSE網絡。

訓練細節:

   網絡的訓練以學習率1e-3,SGD優化算法(動量爲0.9,衰減因子1e-4),梯度裁剪完成。

 


第二部分:重構$LH^{r}$, $HL^{r}$, $HH^{r}$

  拿$LH^{r}$舉例,用$LH^{o}$和$LH^{p}$融合獲得$LH^{r}$.考慮到$LH^{p}$中的小波係數內容比$LH^{o}$的豐富,非0係數更多,指望將$LH^{p}$中的細節小波係數變換到$LH^{o}$中,所以將$LH^{p}$做爲風格輸入(style input),$LH^{o}$做爲內容輸入(content input)。不一樣於傳統的風格遷移算法——輸入是像素值,這裏的輸入小波係數,所以首先將小波係數歸一化到0-1(值減去最小值,再除以最大值)

  損失函數有三個:content loss($L_c$), style loss($L_s$)和$L_1$範數損失(保持重構小波係數的稀疏性)。以下:

 

 

  其中

    

   這裏其實是基於預訓練的VGG做爲WDST網絡,只有一個參數是可訓練的,那就是$LH^{r}$.

訓練細節:用的L-BFGS優化算法.$\alpha=1e-3, \omega=0.2, \beta=1, \gamma=1e-5$


實驗結果

  定量結果(PSNR/NRQM):

 

 

   定性結果:

 

 

 

 


對比實驗:

一、考慮不一樣小波分解產生的影響:

 

根據實驗能夠看出,用不一樣小波分解對實驗結果影響不大。

 二、不一樣高頻子帶重構,對最終的影響

 

 能夠看出三個高頻子帶都有貢獻,相比於$LH, HL$,$HH$的貢獻最小,由於$HH$爲對角方向信息,不如$LH, HL$他們攜帶的信息多。


相關連接

http://openaccess.thecvf.com/content_ICCV_2019/papers/Deng_Wavelet_Domain_Style_Transfer_for_an_Effective_Perception-Distortion_Tradeoff_in_ICCV_2019_paper.pdf

相關文章
相關標籤/搜索