文章發佈於公號【數智物語】 (ID:decision_engine),關注公號不錯過每一篇乾貨。瀏覽器
來源 | AI科技評論網絡
能顯著提升生成圖像的質量~框架
編者按:目前基於描述的繪圖機器人在圖像生成質量以及包含多個目標和豐富關係的更復雜場景中生成圖像仍然存在較大挑戰。來自微軟人工智能研究院 、JD 人工智能研究院及紐約州立大學奧爾巴尼分校的衆多相關學者正在開發一項新的人工智能技術,相關機器人能夠從相似於說明的平常場景描述文本中生成圖像,其顯著提升了生成圖像的質量,相關成果發表在微軟官網博客上。機器學習
若是你被要求畫這樣一張圖片——幾個穿着滑雪服的人站在雪地裏,你極可能會先在畫布中間合理位置畫出三四我的的輪廓,而後繼續畫他們腳下的滑雪板。雖然沒有具體說明,但你可能會決定給每一個滑雪者都增長一個揹包,以配合他們預期的運動。最後,你會仔細地填充細節,也許把他們的衣服塗成藍色,圍巾塗成粉色,把全部的背景都塗成白色,讓這些人看起來更真實,並確保他們周圍的環境符合描述。最後,爲了使場景更加生動,你甚至能夠用一些棕色的石頭與白雪對比突出表示這些滑雪者在山裏。工具
如今有一個機器人能夠作到這一切。佈局
微軟研究院正在開發的新的人工智能技術能夠理解天然語言描述,繪製圖像佈局草圖,合成圖像,而後根據提供的佈局和單個詞彙細化細節。換句話說,這個機器人能夠從相似於說明的平常場景描述文本中生成圖像。根據於加利福利亞州長灘市舉行的 CVPR 2019 上發表的文章「Object-driven Text-to-Image Synthesis via Adversarial Training」所述,標準測試結果代表,相對於前一代最早進的複雜平常場景文本轉圖像技術,上述機器人有成熟的機制,可顯著提升生成圖像的質量。該論文是微軟人工智能研究院 Pengchuan Zhang、 Qiuyuan Huang、 Jianfeng Gao,微軟的 Lei Zhang,JD 人工智能研究院的 Xiaodong He,以及紐約州立大學奧爾巴尼分校 Wenbo Li、Siwei Lyu(Wenbo Li 曾在微軟人工智能研究院實習)合做的成果。學習
基於描述的繪圖機器人面臨兩個主要挑戰。第一個挑戰是在平常場景中會出現不少種類的物體,機器人應該能理解全部種類的物體並將其畫出來。前述文本轉圖像生成方法使用圖像—說明對,這些方法僅爲生成單個目標提供很是粗粒度的監督信號,限制了它們對物體的圖像生成質量。在這項新技術中,研究人員使用了 COCO 數據集,該數據集包含 80 個常見目標分類裏面 150 萬個目標實例的標籤和分割圖,使得機器人可以學習這些目標的概念和外觀。這種用於目標生成的細粒度監督信號顯著提升了這些常見目標類型的生成質量。測試
第二個挑戰是理解和生成一個場景中多個目標之間的關係。在幾個特定領域,例如人臉、鳥類和常見目標,在生成只包含一個主要目標的圖像方面已經取得了巨大的成功。然而,在文本轉圖像的生成技術中,在包含多個目標和豐富關係的更復雜場景中生成圖像仍然是一個重大的挑戰。這個新的繪圖機器人從 COCO 數據集共現模式中學會了生成目標的佈局,而後根據預先生成的佈局生成圖像。動畫
01目標驅動的專一圖像生成編碼
微軟人工智能研究院的繪圖機器人核心是一種被稱爲生成式對抗網絡( GAN)的技術。GAN 由兩個機器學習模型組成:一個是根據文本描述生成圖像的生成器,另外一個是根據文本描述判斷生成圖像可靠性的鑑別器。生成器試圖讓假照片經過鑑別器,而鑑別器不但願被愚弄。二者共同工做,鑑別器推進生成器趨向完美。
繪圖機器人在一個包含 10 萬幅圖像的數據集上進行訓練,每一個圖像都有突出的目標標籤和分割圖,以及五個不一樣的標題,容許模型構思單個目標和目標之間的語義關係。例如,GAN 在比較有狗和沒有狗的描述的圖像時,學習狗應該是什麼樣子。
GANs 在生成只包含一個突出目標,例如人臉、鳥類或狗的圖像時表現很好,可是在生成更復雜的平常場景時,圖像生成的質量就會停滯不前,好比描述爲「一個戴頭盔的女人正在騎馬」的場景(參見圖 1)。這是由於這類場景包含了多個目標(女人、頭盔、馬),這些目標之間有着豐富的語義關係(女人戴頭盔、女人騎馬)。機器人首先必須理解這些概念,並將它們放在具備意義的佈局的圖像中。而後,須要一個更強的監督信號來教 GANs 進行目標生成和佈局生成,從而完成語言理解與圖像生成任務。
圖 1:具備多個目標和關係的複雜場景
當人類繪製這些複雜的場景時,咱們首先決定繪製的主要目標,並經過在畫布上爲這些目標設置邊框來進行佈局。而後,經過反覆檢查該目標相應的描述來實現對每一個目標的聚焦。爲了捕捉人類的上述特色,研究人員創造了一種被他們稱爲目標驅動的專一 GAN,或 ObjGAN,來對人類以目標爲注意力中心的行爲進行數學建模。ObjGAN 經過將輸入文本分解成單獨的單詞並將這些單詞與圖像中的特定目標進行匹配,從而實現上述人類的特色。
人類一般會從兩個方面來改進繪圖:單個目標的真實感和圖像補丁的質量。ObjGAN 經過引入兩個鑑別器來模擬這種行爲---智能目標鑑別器和智能補丁鑑別器。智能目標鑑別器試圖肯定生成的目標是否真實,以及該目標是否與語句描述一致。智能補丁鑑別器試圖判斷這個補丁是否真實,以及這個補丁是否與語句描述一致。
02相關工做:故事可視化
最早進的文本轉圖像模型可以基於單一語句描述生成真實的鳥類圖像。然而,文本轉圖像生成技術能夠遠遠不止基於單一語句合成單一圖像。由微軟研究院 Jianfeng Gao,微軟動態 365 人工智能研究員 Zhe Gan、Jingjing Liu 和 Yu Cheng,杜克大學 Yitong Li、David Carlson 和 Lawrence Carin,騰訊人工智能研究院 Yelong Shen,以及卡耐基梅隆大學 Yuexin Wu 所著的論文「StoryGAN: A Sequential Conditional GAN for Story Visualization」中更進一步的提出了一個稱之爲故事可視化的新任務。給定一個多語句段落,該段落構成的完整故事能夠被可視化,即生成一系列的圖像,且每一個語句對應一個圖像。這是一個具備挑戰性的任務,由於繪圖機器人不只須要想象一個適合故事的場景,爲故事中出現的不一樣角色之間的交互建模,並且還必須可以在動態場景和角色之間保持全局一致性。這一挑戰尚未任何單一圖像或視頻生成方法可以解決。
研究人員提出了一種基於序列條件 GAN 框架新的故事-圖像-序列生成模型,稱之爲 StoryGAN。該模型的獨特之處在於,它由一個能夠動態跟蹤故事流的深層上下文編碼器和兩個故事與圖像層級的鑑別器組成,從而加強圖像質量和生成序列的一致性。StoryGAN 還能夠天然地擴展爲交互式圖像編輯,其能夠根據文本指令按順序編輯輸入的圖像。在這種狀況下,一系列用戶指令將做爲「故事」輸入。所以,研究人員修改了現有的數據集,建立了 CLEVR-SV 和 Pororo-SV 數據集,如圖 2 所示。
圖 2:簡單圖像生成 VS 故事可視化
03實際應用 —— 一個真實的故事
在實際應用中,文本轉圖像生成技術能夠做爲畫家和室內設計師的素描助手,也能夠做爲聲控照片編輯工具。隨着計算能力的提升,研究人員設想了一種基於劇本生成動畫電影的技術,能使動畫製做者的工做產量變大,同時省去一些手工勞動。
目前,生成的圖像與照片的真實感相差甚遠。生成的圖像中單個物體幾乎都會暴露出缺陷,好比模糊的人臉或變形的公交車。這些缺陷清楚地代表,該圖像是電腦生成而非人類創造。儘管如此,ObjGAN 圖像的質量明顯好於之前同類中最好的 GAN 圖像,而且在通往通用人工智能的道路上起到了里程碑做用。
人工智能和人類要共享同一個世界,就必需要有一種與他人互動的方式。語言和視覺是人類和機器相互做用最重要的兩種方式。文本轉圖像生成技術是語言視覺多模態智能研究的重要內容之一。
ObjGAN 和 StoryGAN 的開源代碼請在 GitHub 上查看。
via:Microsoft blog
ObjGAN:https://arxiv.org/pdf/1902.10740.pdf
StoryGAN:https://arxiv.org/abs/1812.02784
AI 科技評論編譯整理。
星標我,天天多一點智慧