人臉合成系列近期文章整理

StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation

重要,單開一篇筆記。數據庫

FaceID-GAN: Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis

CVPR 2018 重要,單開一篇筆記。網絡

Conditional Face Synthesis for Data Augmentation

PRCV 2018
使用VAE+CGAN
三個創新點:架構

  • 用增廣的數據輔助訓練
  • 多尺度判別器得到高質量圖像
  • 使用identity-preserving loss和classification matching loss保證id不變,特徵匹配loss提升訓練穩定性。

判別器同時作real/fake分類和id分類,在判別器的最後三層特徵圖上作FM(特徵匹配) loss,又用一個旁觀的識別模型作感知loss,與FM相似。VAE生成的是兩張圖,一是不加噪生成的重構圖,二是加噪生成的合成圖,重構圖作重構loss,重構和合成圖都作判別損失。dom

最終實驗,在FaceScrub上train生成模型和識別模型,在LFW上直接test,沒有對LFW做加強。兩種加強方式,一是爲已知id生成更多樣本;二是生成新id。居然都word,可是第二種帶來的提升不大。可是沒有試過兩種方式都用。因爲訓練集和測試集不是一個,因此準確率僅92-93,畢竟過高了就不能體現加強的效果了,應該是出於這個考慮沒有在LFW上訓練。
對實驗的可靠性持懷疑態度。。ide

Generating Photo-Realistic Training Data to Improve Face Recognition Accuracy

Work in progress...ICML 2019?
目標也是要生成新的id參與人臉識別任務的訓練。將one-hot的id向量通過一個enbedding網絡變爲連續的高斯分佈,輸出爲E(y),用對抗自編碼器的思想迫使E(y)服從高斯。而後再採樣一個噪聲向量\(z_{nid}\),與E(y)一同輸入生成器。這樣,E(y)編碼了id相關的信息,做者但願噪聲向量\(z_{nid}\)編碼id無關的信息,例如表情,因此用了InfoGAN的思路將\(z_{nid}\)搞成id無關的屬性信息。注意,用InfoGAN學習id無關的屬性,不須要屬性的標註,但學出來的東西應該不如帶屬性標註的方法(如StarGAN)靠譜。實驗部分沒看,做者確定是從E(y)中隨機採樣,當作新的id編碼,用生成的圖像參與訓練。整個生成架構使用WGAN-gp+PGGAN。性能

Generative Adversarial Network with Spatial Attention for Face Attribute Editing

ECCV 2018 Shiguang Shan團隊
文章的核心就是引入空間Attention機制,引導屬性edit,其實Attention機制Dacheng Tao老師和Ian Goodfellow今年都作了相似的工做,特別是Dacheng老師的那一篇,能夠說跟這一篇幾乎徹底同樣,因此這篇文章感受有點水。Motivation很直接,就是引入空間的Attention,讓模型有目的地去修改像素,而不是像CycleGAN或者StarGAN同樣全圖改。做者也提到了,這種方法能夠用來作數據加強,有利於人臉識別任務。學習

本文以CycleGAN、StarGAN和ResGAN做爲baseline,其中ResGAN的想法就是學殘差圖,再跟原圖相加,其實我以前作過相似實驗,不太靠譜。測試

本文提出的方法,生成器只有一個,相似StarGAN,以原圖和條件做爲輸入,可是條件只能有一個,這一點比StarGAN弱,做者說了這是下一步改進的方向,照理說多條件的實現也沒多難?難道是由於效果很差,或者沒時間作了?生成器分爲兩個部分,一個是attribute manipulation net(AMN),另外一個是spatial attention net(SAN),AMN任務是改像素,SAN任務是找到關鍵的修改區域。AMN的輸入是條件+image,四通道;SAN只輸入圖像,三通道,這裏我表示嚴重的懷疑,若是SAN的輸入沒有條件,如何focus到目標區域?畢竟目標區域和條件是直接相關的啊!算了,繼續往下扯。判別器輸入是一張圖像,輸出兩個東西,一是src,即來源於真實分佈仍是僞造分佈;二是cls,即輸入圖像是否具備目標屬性。兩個輸出都是標量,表示機率。這裏對第二個輸出cls又表示嚴重的懷疑,模型要弄的屬性有不少個,雖然說每次只能改一個,可是判別器哪裏知道你要判斷的是哪一個屬性???ui

實驗部分就很少說了。主要提一下這個東西用於人臉識別任務的實驗,我的對於人臉的這幾個任務還不太熟,說實話這裏看的還不是很明白,可能寫的有點問題。做者並無用生成的圖像參與訓練,而是在測試集上對於每一個id生成幾個新樣本。個人理解是,對於每一個query樣本,隨便編輯兩下多搞出幾個增廣樣本,再分別送到模型裏去查?也就是把單查詢任務搞成多查詢,讓性能獲得提升。做者最後寫道,在CelebA上作了smile的加強以後性能有所降低,多是由於數據庫裏smile的臉比較少。編碼

Show, Attend and Translate: Unpaired Multi-Domain Image-to-Image Translation with Visual Attention

CVPR 2019??
StarGAN基礎上的改進,主要內容:一是target label vector應該加在哪一個階段,結論是不該該跟原始圖像拼起來,而應該加在中間的特徵上;二是加了action vector,取值是-1,0,1,表明編輯的方向,根據輸入圖像的屬性和目標屬性來計算,這樣能夠更好地引導生成,實際上就是讓生成器不須要學習輸入圖像所屬的域,StarGAN中的生成器實際上須要隱式地把這個東西給學到;三是Attention,這個跟Shiguang Shan老師那一篇能夠說是一毛同樣的。
關於視覺attention的做用,文中給的說法是:可以捕捉輸入圖像和目標domain之間的相關性,使得domain-unrelated的區域得以保留。
此文的貢獻有限,並且action vector無疑增長了對標註的要求,必須知道輸入圖像相應的屬性模型才能工做,這個貢獻,我以爲不行。若是投的是CVPR 2019,我以爲中不了。。。但願做者不要幹我。

Attribute-Guided Face Generation Using Conditional CycleGAN

ECCV 2018 騰訊優圖 這篇要作的事情是超分辨,給定低分辨率的圖像和人臉的屬性,生成高分辨率的圖像,大概是這意思,目前關係不大,就先不看了。

相關文章
相關標籤/搜索