摘要: 本文主要講述了生成對抗網絡GANs的發展和主要應用。
在GAN發展的最初幾年裏,咱們取得了使人矚目的進展。固然,如今不會是像恐怖電影裏那樣有郵票大小的面部照片了。2017年,Gan製做了1024×1024張能愚弄人才童子軍的照片。在將來幾年,咱們可能會看到GAN生成的高質量視頻,由此衍生的商業應用程序即未來臨。做爲GAN系列的一部分,咱們研究了一些很酷的應用程序,但願它們能做你的GAN應用程序的靈感來源。git
衆所周知,遊戲開發和動畫製做成本很高,而且僱傭了許多製做藝術家來完成相對常規的任務。但經過GAN就能夠自動生成動畫角色併爲其上色。github
發生器和鑑別器由多層卷積層、批標準化和具備跳過連接的relu組成。跨域
經過姿式的附加輸入,咱們能夠將圖像轉換爲不一樣的姿式。例如,右上角圖像是基礎姿式,右下角是生成的圖像。網絡
下面的優化結果列是生成的圖像。app
該設計由二級圖像發生器和鑑頻器組成。生成器使用元數據(姿式)和原始圖像重建圖像。鑑別器使用原始圖像做爲CGAN設計標籤輸入的一部分。編輯器
跨域名轉讓將極可能成爲第一批商業應用。GANs將圖像從一個領域(如真實的風景)轉換爲另外一個領域(莫奈繪畫或梵高)。學習
例如,它能夠在斑馬和馬之間轉換圖片。優化
Cyclegan構建了兩個網絡G和F來構建從一個域到另外一個域以及反向的圖像。它使用鑑別器d來批評生成的圖像有多好。例如,G將真實圖像轉換爲梵高風格的繪畫,而且DY用於區分圖像是真實的仍是生成的。動畫
域A到域B:ui
咱們在反向域B域A中重複該過程:
PixelDTGAN
根據名人圖片推薦商品已經成爲時尚博客和電子商務的熱門話題。Pixeldtgan的做用就是從圖像中建立服裝圖像和樣式。
超分辨率
從低分辨率建立超分辨率圖像。這是GAN顯示出很是使人印象深入的結果,也是具備直接商業可能性的一個領域。
與許多GAN的設計相似,它是由多層卷積層、批標準化、高級relu和跳過鏈接組成。
Progressive GAN多是第一個展現商業化圖像質量的GAN之一。如下是由GAN建立的1024×1024名人形象。
它採用分而治之的策略,使訓練更加可行。卷積層的一次又一次訓練構建出2倍分辨率的圖像。
在9個階段中,生成1024×1024圖像。
須要注意的是這並不是圖像分割,而是從語義圖上生成圖像。因爲採集樣本很是昂貴,咱們採用生成的數據來補充培訓數據集,以下降開發成本。在訓練自動駕駛汽車時能夠自動生成視頻,而不是看到它們在附近巡航,這就爲咱們的生活帶來了便捷。
網絡設計:
文本到圖像是域轉移GAN的早期應用之一。好比,咱們輸入一個句子就能夠生成多個符合描述的圖像。
另外一個比較通用的實現:
不一樣姿態下的合成面:使用單個輸入圖像,咱們能夠在不一樣的視角下建立面。例如,咱們可使用它來轉換更容易進行人臉識別圖像。
幾十年前,修復圖像一直是一個重要的課題。gan就能夠用於修復圖像並用建立的「內容」填充缺失的部分。
用面部字符P(金髮,女性,微笑,戴眼鏡),P(棕色,男性,微笑,沒有眼鏡)等不一樣組合建立GAN是很不現實的。維數的詛咒使得GAN的數量呈指數增加。但咱們能夠學習單個數據分佈並將它們組合以造成不一樣的分佈,即不一樣的屬性組合。
DiscoGAN提供了匹配的風格:許多潛在的應用程序。DiscoGAN在沒有標籤或配對的狀況下學習跨域關係。例如,它成功地將樣式(或圖案)從一個域(手提包)傳輸到另外一個域(鞋子)。
DiscoGAN和cyclegan在網絡設計中很是類似。
PIX2PIx是一種圖像到圖像的翻譯,在跨域Gan的論文中常常被引用。例如,它能夠將衛星圖像轉換爲地圖(圖片左下角)。
從圖片中建立表情符號。
重建或編輯具備特定屬性的圖像。
基於內容的圖像編輯:例如,擴展髮帶。
這是用gan加強現有解決方案的一個應用程序。
將圖像混合在一塊兒。
建立新的視頻序列。它識別出什麼是背景,併爲前臺操做建立新的時間序列。
這是用gan建立三維對象時常常引用的一篇文章。
GaN能夠應用於非圖像領域,如做曲。
GAN還能夠擴展到其餘行業,例如醫學中的腫瘤檢測。
本文展現了一些GAN的相關應用程序。若是你感興趣想進一步研究GAN能夠繼續閱讀如下文章:
第一部分:重點介紹如何應用gans解決深層次學習問題,以及爲何培訓gans如此困難。
GAN-關於GAN的綜合考察(上)
第二部分:GAN培訓問題解決概述。
GAN-關於GAN的綜合考察(下)
本系列中的全部文章:
GaN-GaN系列(從頭至尾)
本文爲雲棲社區原創內容,未經容許不得轉載。