打開混淆虛擬與現實的潘朵拉魔盒算法
——生成式對抗網絡簡述網絡
你是否曾設想過這樣的場景:當你坐在電腦前,一邊品嚐着清香的茶飲,一邊饒有興致地在網頁上瀏覽着一張張精彩的圖片,從表情豐富的清晰人臉,到色彩豔麗的旖旎風光,還有姿態各異的動物萌寵,等等,一切都是那麼的賞心悅目!然而,當你接下來忽然被告知,全部的這一切都是由計算機生成的虛擬照片時,你會否大吃一驚轉而不敢相信?畢竟,這些照片是如此的栩栩如生!現現在,這樣的情形已再也不是夢幻,例如,thispersondoesnotexist.com就是這樣的一個虛擬人臉生成網站,當用戶進入網站後,每一次刷新均可以獲得網站即時生成的一張逼真的「人臉」照片,然而,正如該網站名所指的涵義:在現實中,This person does not exist!那麼,這種無中生有的神奇效果到底是如何實現的呢?該網頁同時在右下角也註明了:「Produced by a GAN (generative adversarial network)」。OK,本文的主角——生成式對抗網絡(GAN)正式登場。框架
2014年,加拿大蒙特利爾大學的Ian J. Goodfellow在《Generative Adversarial Nets》一文中正式提出了生成式對抗網絡,其基本思想就是基於兩個模型:一個生成器和一個判別器。判別器的任務是判斷一張給定的圖片是真實的仍是虛假的,而生成器的任務則是生成與真實圖片類似的圖片以儘量騙過判別器。打個比方,生成模型相似一個假幣制造團伙,其任務是生產和使用假幣,而判別模型則相似金融警察,其職責是發現和查處假幣。原始的GAN公式以下式所示,G、D分別爲生成器、判別器,x爲真實數據,z爲噪聲數據,在對值函數V進行最大、最小化約束下,生成器和判別器交替訓練優化,在此過程當中,生成器不斷提高「造假」能力,直至判別器沒法區分真幣和假幣的程度,此時GAN訓練完成。函數
相比於其它模型,爲何GAN一經提出就會受到如此之高的關注熱度?從本質上說,GAN的真正強大之處在於開創了一種新的對抗式學習模式,大大提升了對數據分佈的學習能力,甚至可在必定程度上認爲它賦予了機器一種相似想象力的能力,可以展現出諸多炫目的生成效果,也正是由於這種強大之處,GAN入選了《麻省理工科技評論》 2018 年全球十大突破性技術,而近年來掀起的以其爲基礎的各類改進或創新研究的熱潮也推進了GAN技術的迅速發展。下面本文就將對GAN的發展進行簡要的介紹,整體上,這一發展主要體如今如下幾方面:學習
1、圖像風格轉換方面字體
一百多年前,當莫奈在春光明媚的塞納河畔畫下這幅油畫時,當時他眼前的景象到底是怎樣的?現實的風景是否如同畫做所描述的通常優美?要想認真回答這個問題的確很難,由於目前咱們還沒法乘坐時光機器穿越時空去感同身受,可是,咱們可使用具備風格轉換功能的GAN來將莫奈的油畫轉換爲照片風格,從而近似地去感覺當時的真實場景。風格轉換的酷炫效果使得GAN大放異彩,在這方面,典型的有 pix2pix、CycleGAN、DiscoGAN、DualGAN等,其中,pix2pix解決了成對圖像訓練的風格轉換問題,CycleGAN、DiscoGAN、DualGAN則從訓練集合的高度,經過定義循環損失函數解決了非成對圖像訓練的風格轉換問題,雖然在風格轉換效果方面稍遜於pix2pix,但卻節省了大量的樣本準備時間,從而大大下降了將GAN投入實際應用的門檻。優化
成對訓練圖像(pix2pix)與非成對訓練圖像(CycleGAN) 網站
CycleGANthis
在風格轉換的實際應用過程當中,隨之也出現了新的問題如:不管是Pix2Pix仍是CycleGAN等,都是從一個領域到另外一個領域的轉換,當有多種不一樣領域的風格轉換需求時,就須要對每一種領域轉換都從頭開始訓練一個新模型來解決,這在實際使用時無疑將至關地麻煩和低效,鑑於此,StarGAN應運而生,其貢獻是提出了高效的多領域轉換的統一算法框架。下圖是StarGAN的效果,在同一種模型下,能夠進行多種圖像風格轉換任務,如改變頭髮顏色、性別、年齡、膚色等。視頻
StarGAN
2、超分辨率圖像生成方面
超分辨率是計算機視覺的一個經典領域,旨在從觀測到的低分辨率圖像重建出相應的高分辨率圖像,它在衛星遙感圖像、圖像復原等諸多領域都有着重要的應用價值,而GAN的相關研究也進一步推進了這一領域技術的發展。典型的有PG-GAN、BigGAN、pix2pixHD、SR-GAN等,例如,來自NVIDIA的PG-GAN論文,提出以一種漸進增大生成器和鑑別器的方式訓練GAN,從最初的4x4低分辨率開始,隨着訓練的進行,不斷添加新的層對愈來愈精細的細節進行建模,最終達到1024x1024分辨率,實現了效果使人驚歎的生成圖像。
PG-GAN
3、生成的可解釋性方面
雖然GAN的對抗式學習機制帶來了驚豔的圖像生成效果,可是剛開始人們對於GAN的生成過程缺少行之有效的干預手段,所以,研究者們在這方面進行了一系列努力,設法利用控制變量對生成過程進行監督,表明性的工做有InfoGAN、CGAN等,其中,InfoGAN提出將生成器的輸入分解爲不可壓縮的噪聲和具備不一樣意義的潛在控制變量,而後經過調節潛在控制變量來引導生成器生成具備不一樣方向、不一樣字體寬度的圖像。
InfoGAN
MIT的研究者們經過對網絡進行分解,並觀察特定單元在激活或關閉時對生成結果的影響來實現對GAN的可視化理解(如GAN DISSECTION圖),進而在此基礎上實現了高效繪畫,僅需輕鬆操做鼠標,GAN就能夠在鼠標劃過的地方繪製或擦除樹木、草地、門、天空、雲朵、磚牆、圓屋頂等景物。
GAN DISSECTION
4、其它方面
除了上述方面,GAN和其它方面技術的結合也展示了至關不錯的效果,例如,加州大學伯克利分校的研究人員利用姿態估計技術和GAN實現了不一樣人之間的動做遷移「do as I do」,即便你徹底不會跳舞,但藉助這項技術,只需預先輸入一段善舞者姿態優美的舞蹈視頻,而後再輸入你本人的隨意動做視頻,通過姿態估計和網絡訓練、視頻生成後,你立馬就可變身爲生成視頻裏翩翩起舞的絕對主角。因此,在GAN的助力下,不會跳舞?不存在的!
do as I do
其它的還有可以實現不一樣人之間聲音轉換的starGAN-vc,提升訓練的穩定性方面如WGAN、WGAN-GP、SNGAN,隱私保護方面如賓夕法尼亞大學利用AC-GAN生成的虛擬臨牀數據進行共享以知足保護參與者隱私的需求,等等。
GAN技術的迅速發展在爲咱們帶來諸多欣喜成果的同時,其出色的圖像生成能力也使咱們難以對諸如「呈如今你眼前的到底是虛擬OR現實?」之類的問題給出準確的答案,所以,眼見也未必爲實。一旦GAN的這種能力被別有用心者利用,將會形成難以預見的負面影響,例如2017年末網絡上出現的基於GAN的換臉視頻就帶給了世人恐慌和震驚。混淆虛擬與現實之間界線的潘朵拉魔盒已經打開,應引導人們以造福學習、工做、生活爲目的正確合理地使用這項技術,不斷地讓魔盒帶給咱們驚喜和但願!