[Deep-Learning-with-Python]GAN圖片生成

GAN

由Goodfellow等人於2014年引入的生成對抗網絡(GAN)是用於學習圖像潛在空間的VAE的替代方案。它們經過強制生成的圖像在統計上幾乎與真實圖像幾乎沒法區分,從而可以生成至關逼真的合成圖像。python

理解GAN的直觀方式是想象一個僞造者試圖創造一幅僞造的畢加索做品。起初,僞造者的任務很是糟糕。他將他的一些假貨與真正的畢加索混合在一塊兒,並將它們所有展現給藝術品經銷商。藝術品經銷商對每幅畫進行真實性評估,並給出關於畢加索看起來像畢加索的緣由的僞造反饋。僞造者回到他的工做室準備一些新的假貨。隨着時間的推移,僞造者愈來愈有能力模仿畢加索的風格,藝術品經銷商愈來愈專業地發現假貨。最後,他們手上拿着一些優秀的假畢加索。網絡

這就是GAN的意義:僞造網絡和專家網絡,每一個網絡都通過最好的培訓。所以,GAN由兩部分組成:架構

  • 生成網絡(generator): 將隨機向量(潛在空間中的隨機點)做爲輸入,並將其解碼爲合成圖像;
  • 辨別網絡(discriminator): 將圖像(真實的或合成的)做爲輸入,並預測圖像是來自訓練集仍是由生成器網絡建立。

生成器網絡通過訓練,可以欺騙鑑別器網絡,所以隨着訓練的進行,它逐漸產生愈來愈逼真的圖像:人工圖像看起來與真實圖像沒法區分,只要鑑別器網絡不可能鑑別兩張圖片。同時,鑑別器不斷適應發生器逐漸改進的能力,爲生成的圖像設置了高度的真實感。一旦訓練結束,生成器就可以將其輸入空間中的任何點轉換爲可信的圖像。與VAE不一樣,這個潛在空間對有意義結構的明確保證較少;特別是,它不是連續的。
[圖片上傳失敗...(image-599f61-1536326082049)]dom

值得注意的是,GAN是一個優化最小值不固定的系統。一般,梯度降低包括在靜態損失中滾下山丘。可是使用GAN,從山上下來的每一步都會改變整個景觀。這是一個動態系統,其中優化過程尋求的不是最小,而是兩個力之間的平衡。出於這個緣由,GAN是衆所周知的難以訓練 - 讓GAN工做須要大量仔細調整模型架構和訓練參數。ide

GAN實現示意圖

使用keras實現一個簡單的GAN網絡:DCGAN,Generator和Discriminator都是由卷積網絡組成。使用Conv2DTranspose網絡層在Generator用來對圖片上採樣。函數

在CIFAR10,50000張32x32 RGB圖片數據集上訓練。爲了訓練更容易,僅使用「青蛙"類圖片。學習

實現GAN網絡流程:優化

  1. generator網絡將(latent_dim, )向量轉換成(32,32,3)圖片;
  2. discriminator將(32,32,3)圖片映射到2分類得分上,獲得圖片爲真的機率;
  3. gan網絡將generator和discriminator結合起來:gan(x) = discriminator(generator(x))。gan網絡將隱空間向量映射到鑑別器鑑別generator由隱空間向量生成圖片爲真的機率上;
  4. 使用帶real/fake標籤的real、fake圖片對Discriminator訓練;
  5. 要訓練Generator,可使用gan模型損失對Generator權重的梯度。這意味着,在每一個步驟中,將生成器的權重移動到使鑑別器更可能將生成器解碼的圖像歸類爲「真實」的方向上。換句話說,你訓練生成器來欺騙鑑別器。

A bag of tricks

衆所周知,訓練GAN和調整GAN實現的過程很是困難。你應該記住一些已知的技巧。像深度學習中的大多數事情同樣:這些技巧是啓發式的,而不是理論支持的指導方針。 他們獲得了對手頭現象的直觀理解的支持,而且他們已經知道在經驗上運做良好,儘管不必定在每種狀況下都有效。
如下是實現GAN生成器和鑑別器時使用的一些技巧。它不是GAN相關技巧的詳盡列表;你會在GAN文獻中找到更多:3d

  • Generator使用tanh做爲最後一層的激活函數,而不是sigmoid;
  • 隱空間取樣時使用正態分佈(高斯分佈),而不是均勻分佈;
  • 爲了健壯性能夠增長隨機性。因爲GAN訓練致使動態平衡,GAN可能會以各類方式陷入困境。在訓練期間引入隨機性有助於防止這種狀況。咱們以兩種方式引入隨機性:經過在鑑別器中使用dropout並經過向鑑別器的標籤添加隨機噪聲。
  • 稀疏梯度可能會阻礙GAN訓練在深度學習中,稀疏性一般是理想的屬性,但在GAN中則否則。有兩件事能夠引發梯度稀疏:最大池操做和ReLU激活。建議使用跨步卷積進行下采樣,而不是最大池化,建議使用LeakyReLU層而不是ReLU激活。它與ReLU相似,但它經過容許小的負激活值來放寬稀疏性約束。
  • 在生成的圖像中,一般會看到因爲生成器中像素空間的不均勻覆蓋而致使的棋盤格僞影(見圖8.17)。爲了解決這個問題,每當咱們在生成器和鑑別器中使用跨步的Conv2DTranpose或Conv2D時,咱們使用能夠被步長大小整除的內核大小。

image

Generator

首先,開發一個生成器模型,該模型將矢量(從潛在空間 - 在訓練期間將隨機採樣)轉換爲候選圖像。 GAN一般出現的許多問題之一是生成器卡在生成的看起來像噪聲的圖像。一種可能的解決方案是在鑑別器和發生器上使用dropout。
GAN 生成器網絡code

import keras
from keras import layers
import numpy as np

latent_dim = 2
height = 32
width = 32
channels = 3
generator_input = keras.Input(shape=(latent_dim,))

x = layers.Dense(128 * 16 * 16)(generator_input)
x = layers.LeakyReLU()(x)
x = layers.Reshape((16, 16, 128))(x)#將輸入轉換成16*16 128通道的特徵圖

x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)

x=layers.Conv2DTranspose(256, 4, strides=2, padding='same')(x)#上採樣32*32
x = layers.LeakyReLU()(x)

x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(256, 5, padding='same')(x)
x = layers.LeakyReLU()(x)

#產生32x32 1通道的特徵圖
x = layers.Conv2D(channels, 7, activation='tanh', padding='same')(x)
generator = keras.models.Model(generator_input, x)#將(latent_dim,)->(32,32,3)
generator.summary()

Discriminator

接下來,將開發一個鑑別器模型,將候選圖像(真實的或合成的)做爲輸入,並將其分爲兩類:「生成的圖像」或「來自訓練集的真實圖像」。
GANs 鑑別器網絡

discriminator_input = layers.Input(shape=(height, width, channels))
x = layers.Conv2D(128, 3)(discriminator_input)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Conv2D(128, 4, strides=2)(x)
x = layers.LeakyReLU()(x)
x = layers.Flatten()(x)

x = layers.Dropout(0.4)(x)

x = layers.Dense(1, activation='sigmoid')(x)#二分類

discriminator = keras.models.Model(discriminator_input, x)
discriminator.summary()

discriminator_optimizer = keras.optimizers.RMSprop(lr=0.0008,
        clipvalue=1.0,decay=1e-8)
discriminator.compile(optimizer=discriminator_optimizer,
    loss='binary_crossentropy')

對抗網絡

最後,設置GAN,它連接生成器和鑑別器。通過訓練,該模型將使生成器向一個方向移動,從而提升其欺騙鑑別器的能力。這個模型將潛在空間點轉換爲分類決策(「假」或「真實」) 而且它意味着使用始終「這些是真實圖像」的標籤進行訓練。所以,訓練gan將更新生成器的權重。在查看假圖像時,使鑑別器更有可能預測「真實」的方式。很是重要的是要注意在訓練期間將鑑別器設置爲凍結(不可訓練):訓練gan時不會更新其權重。若是在此過程當中能夠更新鑑別器權重,那麼將訓練鑑別器始終預測「真實」,這不是咱們想要的!
對抗網絡

discriminator.trainable = False

gan_input = keras.Input(shape=(latent_dim,))
gan_output = discriminator(generator(gan_input))
gan = keras.models.Model(gan_input,gan_output)

gan_optimizer = keras.optimizers.RMSprop(lr=0.0004,clipvalue=1.0,
        decay=1e-8)
gan.compile(optimizer=gan_optimizer,loss='binary_crossentropy')

訓練DCGAN

如今能夠開始訓練了。總結一下,這就是訓練循環的流程。對於每一個epoch,執行如下操做:

  1. 在潛在空間中繪製隨機點(隨機噪聲);
  2. 在生成器中使用隨機噪聲生成圖像;
  3. 將生成的圖像與實際圖像混合;
  4. 使用這些混合圖像訓練鑑別器,並使用相應的目標:要麼「真實」(對於真實圖像)要麼「假」(對於生成的圖像);
  5. 在潛在空間中繪製新的隨機點;
  6. 使用這些隨機向量訓練gan,目標都是「這些都是真實的圖像。」這會更新生成器的權重(僅由於鑑別器在gan內被凍結)以使它們朝向讓鑑別器預測「這些是真實的圖像「用於生成的圖像:這會訓練發生器欺騙鑑別器。

GAN訓練

import os
from keras.preprocessing import image

(x_train, y_train), (_, _) = keras.datasets.cifar10.load_data()
x_train = x_train[y_train.flatten() == 6]#第6類

x_train = x_train.reshape((x_train.shape[0],)+(height, width,               channels)).astype('float32') / 255.

iterations = 10000
batch_size = 20
save_dir = 'your_dir'#保存生成圖片

start = 0
for step in range(iterations):
    random_latent_vectors = np.random.normal(size=(batch_size,
        latent_dim))#正態分佈隨機取點
    
    generated_images = generator.predict(random_latent_vectors)#fake圖
    
    stop = start + batch_size
    real_images = x_train[start: stop]
    #混合真、假圖片
    combined_images = np.concatenate([generated_images, real_images])
    #標籤
    labels = np.concatenate([np.ones((batch_size, 1)),
        np.zeros((batch_size, 1))])
    labels += 0.05 * np.random.random(labels.shape)#加隨機噪聲
    
    d_loss = discriminator.train_on_batch(combined_images, labels)
    
    random_latent_vectors = np.random.normal(size=(batch_size,
        latent_dim))
    isleading_targets = np.zeros((batch_size, 1))
    #gan訓練:訓練generator,固定discriminator
    a_loss = gan.train_on_batch(random_latent_vectors,
        misleading_targets)
    
    start += batch_size
    if start > len(x_train) - batch_size:
        start = 0

    if step % 100 == 0:#每100步保存一次
        gan.save_weights('gan.h5')

        print('discriminator loss:', d_loss)
        print('adversarial loss:', a_loss)

        img = image.array_to_img(generated_images[0] * 255., scale=False)
        img.save(os.path.join(save_dir,'generated_frog'\
            +str(step)+'.png'))
        
        img = image.array_to_img(real_images[0] * 255., scale=False)
        img.save(os.path.join(save_dir,'real_frog' + str(step) + '.png'))

訓練時,可能會看到對抗性損失開始顯着增長,而判別性損失每每爲零 - 鑑別者最終可能主導生成器。若是是這種狀況,嘗試下降鑑別器學習速率,並提升鑑別器的丟失率dropout。
image

小結

  • GAN由與鑑別器網絡和生成器網絡組成。訓練鑑別器以在生成器的輸出和來自訓練數據集的真實圖像之間進行區分,而且訓練生成器以欺騙鑑別器。值得注意的是,生成器組不能直接從訓練集中看到圖像;它對數據的信息來自鑑別器。
  • GAN難以訓練,由於訓練GAN是一個動態過程,而不是具備固定損失的簡單梯度降低過程。GAN正確訓練須要使用一些啓發式技巧,以及大量的參數調整。
  • GAN能夠產生高度逼真的圖像。可是與VAE不一樣,他們學到的潛在空間沒有整齊的連續結構,所以可能不適合某些實際應用,例如經過潛在空間概念向量進行圖像編輯
相關文章
相關標籤/搜索