生成對抗式網絡 GAN的理解

轉自:https://zhuanlan.zhihu.com/p/24767059,感謝分享html

生成式對抗網絡(GAN)是近年來大熱的深度學習模型。最近正好有空看了這方面的一些論文,跑了一個GAN的代碼,因而寫了這篇文章來介紹一下GAN。

本文主要分爲三個部分:python

  1. 介紹原始的GAN的原理 
  2. 一樣很是重要的DCGAN的原理 
  3. 如何在Tensorflow跑DCGAN的代碼,生成如題圖所示的動漫頭像,附送數據集哦 :-)

1、GAN原理介紹

說到GAN第一篇要看的paper固然是Ian Goodfellow大牛的Generative Adversarial Networks(arxiv:),這篇paper算是這個領域的開山之做。git

GAN的基本原理其實很是簡單,這裏以生成圖片爲例進行說明。假設咱們有兩個網絡,G(Generator)和D(Discriminator)。正如它的名字所暗示的那樣,它們的功能分別是:github

  • G是一個生成圖片的網絡,它接收一個隨機的噪聲z,經過這個噪聲生成圖片,記作G(z)。
  • D是一個判別網絡,判別一張圖片是否是「真實的」。它的輸入參數是x,x表明一張圖片,輸出D(x)表明x爲真實圖片的機率,若是爲1,就表明100%是真實的圖片,而輸出爲0,就表明不多是真實的圖片。

在訓練過程當中,生成網絡G的目標就是儘可能生成真實的圖片去欺騙判別網絡D。而D的目標就是儘可能把G生成的圖片和真實的圖片分別開來。這樣,G和D構成了一個動態的「博弈過程」。算法

最後博弈的結果是什麼?在最理想的狀態下,G能夠生成足以「以假亂真」的圖片G(z)。對於D來講,它難以斷定G生成的圖片到底是不是真實的,所以D(G(z)) = 0.5。數據庫

這樣咱們的目的就達成了:咱們獲得了一個生成式的模型G,它能夠用來生成圖片。bash

以上只是大體說了一下GAN的核心原理,如何用數學語言描述呢?這裏直接摘錄論文裏的公式:網絡

 

簡單分析一下這個公式:框架

 

  • 整個式子由兩項構成。x表示真實圖片,z表示輸入G網絡的噪聲,而G(z)表示G網絡生成的圖片。
  • D(x)表示D網絡判斷真實圖片是否真實的機率(由於x就是真實的,因此對於D來講,這個值越接近1越好)。而D(G(z))是D網絡判斷G生成的圖片的是否真實的機率。
  • G的目的:上面提到過,D(G(z))是D網絡判斷G生成的圖片是否真實的機率,G應該但願本身生成的圖片「越接近真實越好」。也就是說,G但願D(G(z))儘量得大,這時V(D, G)會變小。所以咱們看到式子的最前面的記號是min_G。
  • D的目的:D的能力越強,D(x)應該越大,D(G(x))應該越小。這時V(D,G)會變大。所以式子對於D來講是求最大(max_D)

下面這幅圖片很好地描述了這個過程:dom

那麼如何用隨機梯度降低法訓練D和G?論文中也給出了算法:

 

這裏紅框圈出的部分是咱們要額外注意的。第一步咱們訓練D,D是但願V(G, D)越大越好,因此是加上梯度(ascending)。第二步訓練G時,V(G, D)越小越好,因此是減去梯度(descending)。整個訓練過程交替進行。

 

2、DCGAN原理介紹

咱們知道深度學習中對圖像處理應用最好的模型是CNN,那麼如何把CNN與GAN結合?DCGAN是這方面最好的嘗試之一(論文地址:[1511.06434] Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks

DCGAN的原理和GAN是同樣的,這裏就不在贅述。它只是把上述的G和D換成了兩個卷積神經網絡(CNN)。但不是直接換就能夠了,DCGAN對卷積神經網絡的結構作了一些改變,以提升樣本的質量和收斂的速度,這些改變有:

  • 取消全部pooling層。G網絡中使用轉置卷積(transposed convolutional layer)進行上採樣,D網絡中用加入stride的卷積代替pooling。
  • 在D和G中均使用batch normalization
  • 去掉FC層,使網絡變爲全卷積網絡
  • G網絡中使用ReLU做爲激活函數,最後一層使用tanh
  • D網絡中使用LeakyReLU做爲激活函數

DCGAN中的G網絡示意:

3、DCGAN in Tensorflow

好了,上面說了一通原理,下面說點有意思的實踐部分的內容。

DCGAN的原做者用DCGAN生成LSUN的臥室圖片,這並非特別有意思。以前在網上看到一篇文章 Chainerで顔イラストの自動生成 - Qiita ,是用DCGAN生成動漫人物頭像的,效果以下:

這是個頗有趣的實踐內容。惋惜原文是用Chainer作的,這個框架使用的人很少。下面咱們就在Tensorflow中復現這個結果。

1. 原始數據集的蒐集

首先咱們須要用爬蟲爬取大量的動漫圖片,原文是在這個網站:中爬取的。我嘗試的時候,發如今個人網絡環境下沒法訪問這個網站,因而我就寫了一個簡單的爬蟲爬了另一個著名的動漫圖庫網站:konachan.net - Konachan.com Anime Wallpapers

爬蟲代碼以下:

import requests from bs4 import BeautifulSoup import os import traceback def download(url, filename): if os.path.exists(filename): print('file exists!') return try: r = requests.get(url, stream=True, timeout=60) r.raise_for_status() with open(filename, 'wb') as f: for chunk in r.iter_content(chunk_size=1024): if chunk: # filter out keep-alive new chunks f.write(chunk) f.flush() return filename except KeyboardInterrupt: if os.path.exists(filename): os.remove(filename) raise KeyboardInterrupt except Exception: traceback.print_exc() if os.path.exists(filename): os.remove(filename) if os.path.exists('imgs') is False: os.makedirs('imgs') start = 1 end = 8000 for i in range(start, end + 1): url = 'http://konachan.net/post?page=%d&tags=' % i html = requests.get(url).text soup = BeautifulSoup(html, 'html.parser') for img in soup.find_all('img', class_="preview"): target_url = 'http:' + img['src'] filename = os.path.join('imgs', target_url.split('/')[-1]) download(target_url, filename) print('%d / %d' % (i, end)) 

這個爬蟲大概跑了一天,爬下來12萬張圖片,大概是這樣的:

能夠看到這裏面的圖片大多數比較雜亂,還不能直接做爲數據訓練,咱們須要用合適的工具,截取人物的頭像進行訓練。

2. 頭像截取

截取頭像和原文同樣,直接使用github上一個基於opencv的工具:nagadomi/lbpcascade_animeface

簡單包裝下代碼:

import cv2 import sys import os.path from glob import glob def detect(filename, cascade_file="lbpcascade_animeface.xml"): if not os.path.isfile(cascade_file): raise RuntimeError("%s: not found" % cascade_file) cascade = cv2.CascadeClassifier(cascade_file) image = cv2.imread(filename) gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY) gray = cv2.equalizeHist(gray) faces = cascade.detectMultiScale(gray, # detector options scaleFactor=1.1, minNeighbors=5, minSize=(48, 48)) for i, (x, y, w, h) in enumerate(faces): face = image[y: y + h, x:x + w, :] face = cv2.resize(face, (96, 96)) save_filename = '%s-%d.jpg' % (os.path.basename(filename).split('.')[0], i) cv2.imwrite("faces/" + save_filename, face) if __name__ == '__main__': if os.path.exists('faces') is False: os.makedirs('faces') file_list = glob('imgs/*.jpg') for filename in file_list: detect(filename) 

截取頭像後的人物數據:

 

這樣就能夠用來訓練了!

 

若是你不想從頭開始爬圖片,能夠直接使用我爬好的頭像數據(275M,約5萬多張圖片): 提取碼:g5qa

3. 訓練

DCGAN在Tensorflow中已經有人造好了輪子:carpedm20/DCGAN-tensorflow,咱們直接使用這個代碼就能夠了。

不過原始代碼中只提供了有限的幾個數據庫,如何訓練本身的數據?在model.py中咱們找到讀數據的幾行代碼:

if config.dataset == 'mnist': data_X, data_y = self.load_mnist() else: data = glob(os.path.join("./data", config.dataset, "*.jpg")) 

這樣讀數據的邏輯就很清楚了,咱們在data文件夾中再新建一個anime文件夾,把圖片直接放到這個文件夾裏,運行時指定--dataset anime便可。

運行指令(參數含義:指定生成的圖片的尺寸爲48x48,咱們圖片的大小是96x96,跑300個epoch):

python main.py --image_size 96 --output_size 48 --dataset anime --is_crop True --is_train True --epoch 300 --input_fname_pattern "*.jpg" 

4. 結果

第1個epoch跑完(只有一點點輪廓):

 

第5個epoch以後的結果:第10個epoch:

 

 

200個epoch,仔細看有些圖片確實是足以以假亂真的:

 

題圖是我從第300個epoch生成的。

4、總結和後續

簡單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow作一個簡單的生成圖片的demo。

一些後續閱讀:

相關文章
相關標籤/搜索