【譯】一種有關藝術風格遷移的神經網絡算法

本文翻譯自:A Neural Algorithm of Artistic Style,本篇論文能夠說是圖像風格遷移的鼻祖,因畢設須要翻譯一篇外文文獻因此選擇了這篇,我的水平有限,若有翻譯不當或者錯誤之處還望指出,謝謝🙏git

在藝術領域,尤爲是繪畫創做上,人們已經掌握了一種能夠創造獨一無二視覺體驗的能力,那就是經過將一張圖片的內容和風格之間構成某種複雜的關係。到目前爲止,該過程的算法基礎是未知的,而且不存在具備相似能力的人工系統。然而,受到一種名爲深度神經網絡的視覺模型的啓發,在視覺感知的其餘關鍵領域,例如物體和人臉識別,仿生學的效果已經能夠接近人類的表現。這裏咱們將會介紹一個基於深度神經網絡的人工系統,它能夠生成具備高感知品質的藝術圖片。該系統使用神經表示來分離和重組任意圖像的內容和風格,提供了一種建立藝術圖像的神經算法。並且,按照要去表現最優的人工神經網絡和生物視覺中找到相同.咱們的工做提供了人類是怎樣創做和認知藝術圖像的算法理解。此外,鑑於性能優化的人工神經網絡與生物視覺之間驚人的類似性,咱們的工做爲算法理解人類如何創造和感知藝術形象提供了一條前進的道路。算法

處理圖像任務最有效的深度神經網絡是卷積神經網絡。卷積神經網絡由小型計算單元層組成,之前饋方式分層處理視覺信息(圖1)。每層單元能夠理解爲圖像過濾器的集合(a collection of image filters),每一個圖像過濾器從輸入圖像中提取特定特徵。所以,一個給定層的輸出包括所謂的特徵映射(feature maps):它們是對輸入的圖像進行不一樣類型的過濾獲得的。spring

當卷積神經網絡被訓練用於物體識別時,會生成一個圖像的表徵(representations) ,隨着處理層級的上升,物體的信息愈來愈明確。所以,隨着神經網絡中的層級一級一級地被處理,輸入的圖像會被轉換成一種表徵,與圖片的像素細節相比,這種表徵會愈來愈關注圖片的實際內容。經過對某一層的提取出來的feaure map的重塑,咱們能夠直接看到該層包含的圖片信息。層級越高,那麼獲取的圖像中物體內容就越高質量,而且沒有確切的像素值的約束(層級越高,像素丟失越多)。相反,在低層級中重塑的話,其實像素丟失地不多。因此咱們參考的是神經網絡高層的特徵,用它來做爲圖片內容的表徵。性能優化

爲了獲取輸入圖像的風格表徵,咱們用一個特徵空間去捕獲紋理的信息。這個特徵空間創建在每層神經網絡的過濾響應之上(也就是上面提到的feature map)。在feature map的空間範圍上(也就是同一層上的feature map),過濾響應各有不一樣(feature map關注的特徵不一樣),而這個特徵空間就是由這些差別構成。經過對每一層featute map兩兩求相關性,咱們會得到一個靜態的,多尺度的圖像表徵,這也就捕獲到了圖像的紋理信息,但這紋理信息並不是全局的。網絡

圖1 :卷積神經網絡 (CNN)。一張給定的輸入圖像,會在卷積神經網絡的各層以一系列過濾後的圖像表示。隨着層級的一層一層處理,過濾後的圖片會經過向下取樣的方式不斷減少(好比經過池化層)。這使得每層神經網絡的神經元數量會逐步減小。**內容重構。**在只知道該層輸出結果的狀況下,經過重塑輸入圖像,咱們能夠看到CNN不一樣階段的圖像信息。咱們在原始的VGG-Network上的5個層級:conv1_1,conv1_2,conv1_3,conv1_4,conv1_5上重塑了輸入的圖像。 (輸入的圖像是上圖中的一排房子,5個層級分別是a,b,c,d,e )咱們發如今較低層的圖像重構(如abc)很是完美;在較高層(de),詳細的像素信息丟失了。也就是說,在這個過程當中,咱們提取出了圖片的內容,拋棄了像素。風格重構。在原始的CNN表徵之上,咱們創建了一個新的特徵空間(feature space),用於捕獲輸入圖像的風格。風格的表徵計算了在CNN的不一樣層級間不用特徵之間的類似性。經過在CNN隱層的不一樣的子集上創建起來的風格的表徵,咱們重構輸入圖像的風格。如此,便創造了與輸入圖像一致的風格而丟棄了全局的內容。框架

Tips:上述的子集爲:less

‘conv1 1’ (a)jsp

‘conv1 1’ and ‘conv2 1’ (b)ide

‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (c)函數

‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (d)

‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’and ‘conv5 1’ (e)

因而,咱們也能夠在CNN的各層中利用風格特徵空間所捕獲的信息來重構圖像。事實上,重塑風格特徵就是經過捕獲圖片的顏色、結構等等生產出輸入的圖像的紋理的版本。另外,隨着層級的增長,圖像結構的大小和複雜度也會增長。咱們將這多尺度的表徵稱爲風格表徵

本文關鍵的發現是對於內容和風格的表徵在CNN中是能夠分開的。也就是說,咱們能夠獨立地操做兩個表徵來產生新的、可感知的有意義的圖像。爲了展現這個發現,咱們生成了一些混合了不一樣源圖片的內容和風格表徵的圖片。確切的說,咱們將著名藝術畫「星空」的風格,和一張德國拍的照片的內容混合起來了。

咱們尋找這樣一張圖片,它同時符合照片的內容表徵,和藝術畫的風格表徵。原始照片的總體佈局被保留了,而顏色和局部的結構卻由藝術畫提供。如此一來,原來的那張風景照舊像極了藝術做品。

圖2:圖中描述的是將照片內容與幾種知名藝術品的風格相結合的圖像。 經過找到同時匹配照片的內容表徵和藝術品的風格表徵的圖像來建立新的圖像。(譯者注:下面都是圖片的來源,這裏就直接省略了)

正如概述所言,風格表徵是一個多層次的表徵,包含多層神經網絡。在圖2中展現的圖片中,這個風格表徵包括了整個神經網絡結構的各個層次。風格也能夠被定義爲更爲局部化,由於它只包含了少許的低層結構。這些結構能產生不一樣的視覺效果(圖3,along the rows)。若符合了較高層級中的風格表徵,局部的圖像結構會大規模地增長,從而使得圖像在視覺上更平滑與連貫。所以,看起來美美的圖片一般是來自於符合了較高層級的風格表徵。

固然,圖片內容和風格不能被徹底分離。當風格與內容來自不一樣的兩個圖像時,這個被合成的新圖像並不存在在同一時刻完美地符合了兩個約束。可是,在圖像合成中最小化的損失函數分別包括了內容與風格二者,它們被很好地分開了。因此,咱們能夠平滑地將重點既放在內容上又放在風格上(能夠從圖3的一列中看出)。將重點過多地放在風格上會致使圖像符合藝術畫的外觀,有效地給出了畫的紋理,可是幾乎看不到照片的內容了(圖3 第一列)。而將重點過多地放在內容上,咱們能夠清晰地看到照片,可是風格就不那麼符合藝術畫了。所以,咱們要不斷協調圖片的內容與風格,這樣才能產生視覺上有感染力的圖片。

在這裏,咱們提出了一種人工神經系統,它實現了圖像內容與風格的分離,從而容許以任何其餘圖像的風格重鑄一個圖像的內容。咱們經過創造新的藝術圖像來展現這一點,這些圖像將幾種着名繪畫的風格與任意選擇的照片的內容相結合。特別地,咱們從在物體識別上訓練的高性能深度神經網絡的特徵響應來獲取圖像的內容和樣式的神經表徵。

在以前的研究中,是經過評估複雜度小不少的感官輸入來將內容與風格分離的。好比說經過不一樣的手寫字,人臉圖,或者指紋。 而在咱們的展現中,咱們給出了一個有着著名藝術做品風格的照片。這個問題經常會更靠近與計算機視覺的一個分支–真實感渲染。理論上更接近於利用紋理轉換來獲取藝術風格的轉換。可是,這些之前的方法主要依賴於非參數的技術而且直接對圖像表徵的像素進行操做。相反,經過在物體識別上訓練深度神經網絡,咱們在特徵空間上進行相關操做,從而明確地表徵了圖像的高質量內容。

神經網絡在物體識別中產生的特徵先前就已經被用來作風格識別,爲的是根據藝術做品的創做時期來爲做品分類。分類器是在原始的網絡上被訓練的,也就是咱們如今叫的內容表徵。咱們猜想靜態特徵空間的轉換,好比咱們的風格表徵也許能夠在風格分類上有更好的表現。

一般來講,咱們這種合成圖像的方法提供了一個全新的迷人的工具用於學習藝術,風格和獨立於內容的圖像外觀的感知與神經表徵。總之,一個神經網絡能夠學習圖像的表徵,是的圖像內容與風格的分離成爲可能,是如此激動人心。若要給出解釋的話,就是當學習物體識別到時候,神經網絡對全部圖像的變化都能保持不變從而保留了物體的特性。

方法(Methods)

本文展現的結果是基於VGG網絡訓練的。他是一種卷積神經網絡,在常見的視覺對象識別基準任務上,其表現能夠和人類的表現相媲美,所以廣受好評並被多方介紹和使用。咱們使用由19層的VGG神經網絡(16個卷積和5個池化層)提供的特徵空間,而且沒有使用到全鏈接層。這個模型是開源的,而且能夠在caffe這個深度學習框架中使用。對於圖像合成,咱們發現用均值池化層代替最大值池化層會提升梯度流,而且獲得更加完美的結果。因此本案例中咱們用的是均值池化

事實上網絡的每一層都定義了一個非線性的過濾器組,它的複雜性隨着在網絡中所在層的位置而增長。所以一個給定的輸入圖片 \vec{x} ,在CNN的每層都會被過濾器編碼。一個有N_l個不一樣的過濾器的隱藏層有N_l個feature map(每一個神經元輸出一個feature map)。每一個feature map的大小是M_lM_l是feature map高乘以寬的大小。因此一個層 l 的輸出能夠存儲爲矩陣:F^{l} \in \mathcal{R}^{N_{l} \times M_{l}},其中 F_{i j}^{l} 表示在 l 層的位置 j 上的第 i 個過濾器的激活結果。爲了可視化不一樣層級中的圖像信息,咱們在一個白噪聲上使用梯度降低來找到另外一個圖像,它與原始圖像的特徵輸出結果相符合(白噪聲上的圖像其實就是定義一個隨機的新圖,而後經過梯度降低不斷迭代,不斷更新這個新圖)。因此讓 \vec{p} \text { and } \vec{x} 做爲原始圖像和後來產生的圖像,P^{l} \text { and } F^{l} 是他們在層 l 各自的特徵表徵。而後咱們定義兩個特徵表徵之間的平方偏差損失。

\mathcal{L}_{\text {content}}(\vec{p}, \vec{x}, l)=\frac{1}{2} \sum_{i, j}\left(F_{i j}^{l}-P_{i j}^{l}\right)^{2}

這個損失函數的導數是:(針對F求導)

\frac{\partial \mathcal{L}_{\text {content}}}{\partial F_{i j}^{l}}=\left\{\begin{array}{ll}{\left(F^{l}-P^{l}\right)_{i j}} & {\text { if } F_{i j}^{l}>0} \\ {0} & {\text { if } F_{i j}^{l}<0}\end{array}\right.

以上公式中,圖像 \vec{x} 的梯度能夠經過標準偏差的後向計算傳播。所以咱們能夠改變初始的隨機圖像 \vec{x} ,直到它產生了在CNN中與原始圖像 \vec{p} 同樣的輸出結果。在圖1中的5個內容重構來自於原始VGG的‘conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) and ‘conv5 1’(e)

另外,咱們經過計算不一樣過濾器輸出結果之間的差別,來計算類似度。咱們指望得到輸入圖片空間上的衍生。這些特徵的類似性用 G^{l} \in \mathcal{R}^{N_{l} \times N_{l}} 表示。其中 G_{i j}^{l} 來源於層 l 中矢量的feature map ij

G_{i j}^{l}=\sum_{k} F_{i k}^{l} F_{j k}^{l}

Tips:解釋一下上面講的,就是將藝術畫也放進CNN中,好比輸出也是14x14x256的一個矩陣,而後將256個14x14的 feature map 兩兩求類似性,這裏是兩兩相乘,因而會得帶256x256的一個特徵空間矩陣,G就是這個特徵空間

爲了生成符合給定藝術做品風格的紋理,咱們對一個帶有白噪聲的圖像(也就是咱們定義的隨機的新圖)作梯度降低,從而去尋找另外一個圖像,使得這個圖像符合藝術畫的風格表徵。而這個梯度降低的過程是經過使得原始圖像(藝術畫)的Gram矩陣和被生成的圖像(新圖)的Gram矩陣的距離的均方偏差最小化獲得的。所以,令 \vec{a} \text { and } \vec{x} 分別做爲原始藝術圖像與被生成的圖像,A^{l} \text { and } G^{l} 分別做爲層 l 的兩個風格表徵。層 l 對於總損失的貢獻是:

E_{l}=\frac{1}{4 N_{l}^{2} M_{l}^{2}} \sum_{i, j}\left(G_{i j}^{l}-A_{i j}^{l}\right)^{2}

而總損失用公式表達爲:

\mathcal{L}_{s t y l e}(\vec{a}, \vec{x})=\sum_{l=0}^{L} w_{l} E_{l}

其中 w_l 表示每一層對於總損失的貢獻的權重因子。E_t的導數能夠這樣計算:

\frac{\partial E_{l}}{\partial F_{i j}^{l}}=\left\{\begin{array}{ll}{\frac{1}{N_{l}^{2} M_{l}^{2}}\left(\left(F^{l}\right)^{\mathrm{T}}\left(G^{l}-A^{l}\right)\right)_{j i}} & {\text { if } F_{i j}^{l}>0} \\ {0} & {\text { if } F_{i j}^{l}<0}\end{array}\right.

E_l 在低層級的梯度能夠很方便地經過標準偏差後向傳播計算出來。在圖1中5個風格的重塑能夠經過知足一下這些層的風格表徵來生成: ‘conv1 1’ (a), ‘conv2 1’ (b), ‘conv3 1’ (c), ‘conv4 1’ (d) and ‘conv5 1’(e)

爲了生成混合了照片內容和藝術畫風格的新圖像,咱們須要最小化風格損失與內容損失。因此令\vec{p} 表示內容圖片, \vec{a}表示風格圖片,那麼咱們須要最小化的損失函數是:

\mathcal{L}_{\text {total}}(\vec{p}, \vec{a}, \vec{x})=\alpha \mathcal{L}_{\text {content}}(\vec{p}, \vec{x})+\beta \mathcal{L}_{\text {style}}(\vec{a}, \vec{x})

α和β分別是內容和風格在圖像重構中的權重因子。對於在圖像2中展現的圖片,咱們在’conv4_2‘層匹配到了內容表徵,在‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 和 ‘conv5 1’層匹配到了樣式表徵(在這些層,w_l=1/5,在其餘層w_l=0)。在圖2的BCD中,α/β的比值爲1 \times 10^{-3},在圖二的E,F中,這個比值爲1 \times 10^{-4},圖3展現了一個結果:即沿着列不斷調整內容和風格的損失,相對應的風格表徵在下面幾個層所發生的變化。這幾個層分別是:‘conv1 1’ (A), ‘conv1 1’ and ‘conv2 1’ (B), ‘conv1 1’, ‘conv2 1’ and ‘conv3 1’ (C),‘conv1 1’, ‘conv2 1’, ‘conv3 1’ and ‘conv4 1’ (D), ‘conv1 1’, ‘conv2 1’, ‘conv3 1’, ‘conv4 1’ 和 ‘conv5 1’ (E)。因子 w_l 老是等於1除以具備非零損失權值 w_l 的活動層數。

(參考)Tips:α+β=1。若是α比較大,那麼輸出後的新圖會更多地傾向於內容上的吻合,若是β較大,那麼輸出的新圖會更傾向於與風格的吻合。這兩個參數是一個trade-off,能夠根據本身需求去調整最好的平衡。論文的做者給出了它調整參數的不一樣結果,如圖3,從左到右四列分別是α/β = 10^-5, 10^-4,10^-3, 10^-2.也就是α愈來愈大,的確圖像也愈來愈清晰地呈現出了照片的內容。

圖3:Wassily Kandinsky 的做品 Composition VII 的風格的詳細結果。 這些行顯示了匹配CNN圖層增長子集的樣式表示的結果(詳見Methods)。咱們發現,當包含來自網絡較高層的樣式特徵時,由風格表徵捕獲的局部圖像結構在尺寸和複雜性上增長。這能夠解釋爲是因爲沿成網絡處理的結構感覺域的大小和特徵複雜性增長。每一列展現了內容和樣式重建之間取不一樣權重的結果。每列上方的數字表示強調匹配照片內容和藝術品風格之間的比率α/β(詳見Methods)。

鳴謝 這項工做由德國國家學術基金會(L.A.G.),伯恩斯坦計算神經科學中心(FKZ 01GQ1002)和德國國際神經科學研究中心(EXC307)(M.B.,A.S.E, L.A.G)資助。

References and Notes

  1. Krizhevsky, A., Sutskever, I. & Hinton, G. E. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, 1097–1105(2012). URL papers.nips.cc/paper/4824-….
  2. Taigman, Y., Yang, M., Ranzato, M. & Wolf, L. Deepface: Closing the gap to human-level performance in face verification. In Computer Vision and Pattern Recognition (CVPR), 2014 IEEE Conference on, 1701–1708 (IEEE, 2014). URL ieeexplore.ieee.org/xpls/abs_al….
  3. G ̈uc ̧l ̈u, U. & Gerven, M. A. J. v. Deep Neural Networks Reveal a Gradient in the Complexity of Neural Representations across the Ventral Stream. The Journal of Neuroscience 35, 10005–10014 (2015). URL www.jneurosci.org/content/35/….
  4. Yamins, D. L. K. et al. Performance-optimized hierarchical models predict neural responses in higher visual cortex. Proceedings of the National Academy of Sciences 201403112 (2014). URL www.pnas.org/content/ear….
  5. Cadieu, C. F. et al. Deep Neural Networks Rival the Representation of Primate IT Cortex for Core Visual Object Recognition. PLoS Comput Biol 10, e1003963 (2014). URL dx.doi.org/10.1371/jou….
  6. K ̈ummerer, M., Theis, L. & Bethge, M. Deep Gaze I: Boosting Saliency Prediction with Feature Maps Trained on ImageNet. In ICLR Workshop (2015). URL /media/publications/1411.1045v4.pdf.
  7. Khaligh-Razavi, S.-M. & Kriegeskorte, N. Deep Supervised, but Not Unsupervised, Models May Explain IT Cortical Representation. PLoS Comput Biol 10, e1003915 (2014). URL dx.doi.org/10.1371/jou….
  8. Gatys, L. A., Ecker, A. S. & Bethge, M. Texture synthesis and the controlled generation of natural stimuli using convolutional neural networks. arXiv:1505.07376 [cs, q-bio] (2015). URL arxiv.org/abs/1505.07…. ArXiv: 1505.07376.
  9. Mahendran, A. & Vedaldi, A. Understanding Deep Image Representations by Inverting Them. arXiv:1412.0035 [cs] (2014). URL arxiv.org/abs/1412.00…. ArXiv: 1412.0035.
  10. Heeger, D. J. & Bergen, J. R. Pyramid-based Texture Analysis/Synthesis. In Proceedings of the 22Nd Annual Conference on Computer Graphics and Interactive Techniques, SIGGRAPH ’95, 229–238 (ACM, New York, NY, USA, 1995). URL doi.acm.org/10.1145/218….
  11. Portilla, J. & Simoncelli, E. P.A Parametric Texture Model Based on Joint Statistics of Complex Wavelet Coefficients. International Journal of Computer Vision 40, 49–70 (2000). URL link.springer.com/article/10.….
  12. Tenenbaum, J. B. & Freeman, W. T. Separating style and content with bilinear models. Neural computation 12, 1247–1283 (2000). URL www.mitpressjournals.org/doi/abs/10.….
  13. Elgammal, A. & Lee, C.-S. Separating style and content on a nonlinear manifold. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, vol. 1, I–478 (IEEE, 2004). URL ieeexplore.ieee.org/xpls/abs_al….
  14. Kyprianidis, J. E., Collomosse, J., Wang, T. & Isenberg, T. State of the 」Art」: A Taxonomy of Artistic Stylization Techniques for Images and Video. Visualization and Computer 14Graphics, IEEE Transactions on 19, 866–885 (2013). URL ieeexplore.ieee.org/xpls/abs_al….
  15. Hertzmann, A., Jacobs, C. E., Oliver, N., Curless, B. & Salesin, D. H. Image analogies. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, 327–340 (ACM, 2001). URL dl.acm.org/citation.cf….
  16. Ashikhmin, N. Fast texture transfer. IEEE Computer Graphics and Applications 23, 38–43(2003).
  17. Efros, A. A. & Freeman, W. T. Image quilting for texture synthesis and transfer. In Proceedings of the 28th annual conference on Computer graphics and interactive techniques, 341–346 (ACM, 2001). URL dl.acm.org/citation.cf….
  18. Lee, H., Seo, S., Ryoo, S. & Yoon, K. Directional Texture Transfer. In Proceedings of the 8th International Symposium on Non-Photorealistic Animation and Rendering, NPAR ’10, 43–48 (ACM, New York, NY, USA, 2010). URL doi.acm.org/10.1145/180….
  19. Xie, X., Tian, F. & Seah, H. S. Feature Guided Texture Synthesis (FGTS) for Artistic Style Transfer. In Proceedings of the 2Nd International Conference on Digital Interactive Media in Entertainment and Arts, DIMEA ’07, 44–49 (ACM, New York, NY, USA, 2007). URL doi.acm.org/10.1145/130….
  20. Karayev, S. et al. Recognizing image style. arXiv preprint arXiv:1311.3715 (2013). URL arxiv.org/abs/1311.37….
  21. Adelson, E. H. & Bergen, J. R. Spatiotemporal energy models for the perception of motion. JOSA A 2, 284–299 (1985). URL www.opticsinfobase.org/josaa/fullt….
  22. Simonyan, K. & Zisserman, A. Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 [cs] (2014). URL arxiv.org/abs/1409.15…. ArXiv: 1409.1556.
  23. Russakovsky, O. et al. ImageNet Large Scale Visual Recognition Challenge. arXiv:1409.0575 [cs] (2014). URL arxiv.org/abs/1409.05…. ArXiv:1409.0575.
  24. Jia, Y. et al. Caffe: Convolutional architecture for fast feature embedding. In Proceedings of the ACM International Conference on Multimedia, 675–678 (ACM, 2014). URL dl.acm.org/citation.cf….
相關文章
相關標籤/搜索