艾伯特 AI 科技評論按:近日,李飛飛的學生 Justin Johnson 在 arXiv 上傳了一篇論文:Image Generation from Scene Graphs(從場景圖生成圖像),提出利用結構化場景圖而不是非結構化文本生成圖像,該方法可以明確解析對象和對象之間關係,並可生成具備多個可識別對象的複雜圖像。html
論文摘要算法
爲了能真正理解視覺世界,模型不只要可以識別圖像,還要可以生成它們。近期在天然語言描述生成圖片方面取得了使人興奮的進展。這些方法在有限的領域(例如鳥類或花卉的描述)上提供了使人驚歎的結果,但對於具備許多對象和關係的複雜句子卻很難成功複製。爲了克服這個限制,做者提出了一種從場景圖生成圖像的方法,可以明確地推理對象及其關係。做者開發的模型使用圖形卷積來處理輸入圖,經過預測對象的邊界框和分割掩模來計算場景佈局,而且將佈局轉換爲具備級聯精化網絡的圖像。論文做者使用對抗訓練網絡對抗一組鑑別器,以確保實際輸出圖像足夠逼真。實驗經過 Visual Genome 和 COCO-Stuff 數據集驗證了其方法,定性結果和用戶實驗復現證實了該方法可以生成具備多個對象的複雜圖像。網絡
背景介紹函數
我不理解的事物,我是不可能創造出來的。——Richard Feynman佈局
創做行爲的產生創建在深入理解所創造的事物的基礎之上。例如,廚師要比食客更深層理解食物,小說家要比讀者更深層次理解寫做,電影製做者要比影迷更深層次理解電影。若是讓計算機視覺系統要真正理解視覺世界,它必須不只可以識別圖像,並且可以產生它們。學習
除了傳遞深入的視覺理解以外,生成逼真圖像的方法也可能在實踐中有用。在短時間內,自動圖像生成能夠幫助藝術家或圖形設計師更好地工做。有一天,可能會根據每一個用戶的我的興趣愛好,私人定製圖像和視頻,從而取代依靠算法的圖像和視頻搜索引擎。測試
做爲實現這些目標的一個步驟,經過結合遞歸神經網絡和生成對抗網絡,從文本到圖像的合成,從天然語言描述生成圖像已經有使人興奮的進展。(論文做者在 Google Cloud AI 實習期間已經完成了這項工做)搜索引擎
圖1google
句子生成圖像已經有一些最好的方法,例如StackGAN ,但它很難用真實的方式刻畫出有許多對象的複雜句子。論文做者經過從場景圖生成圖像來克服這個限制,能夠明確地推斷出對象及其關係。.net
這些方法能夠在有限的區域上產生使人驚歎的效果,例如對鳥類或花朵的細緻描述。然而,如圖 1 所示,從句子生成圖像的主要方法遇到包含許多對象的複雜句子並不能發揮很好的效果。
句子是線性結構,一個詞接一個詞;然而,如圖 1 所示,複雜句子傳達的信息一般能夠做爲場景圖更明確地表示爲對象及其關係。場景圖是圖像和語言的強大結構化表示;他們已經被用於語義圖像檢索;評估和改進圖像字幕。其方法也被開發用於將句子轉換成場景圖並用於從圖像到場景圖的預測。
在本文中,做者旨在經過調整場景圖的生成來生成具備多對象和關係複雜的圖像,從而使模型可以明確地解釋對象及其關係。
這項新任務帶來了新的挑戰。做者必須開發處理場景圖輸入的方法; 爲此,他們使用一個圖形卷積網絡,沿着圖形邊緣傳遞信息。處理完圖後,必須填補符號圖形結構輸入和二維圖像輸出之間的差距; 爲此,經過預測圖中全部對象的邊界框和分割掩模來構建場景佈局。預先設定好佈局後,必須生成涉及它的圖像; 爲此,使用級聯精化網絡(CRN),它在不斷增長的空間尺度下處理佈局。最後,必須確保生成的圖像真實而且包含可識別的對象; 所以針對一組用於圖像補丁和生成對象的鑑別器網絡進行對抗訓練。模型的全部組件都以端到端的方式共同窗習。
做者在兩個數據集上進行實驗:Visual Genome 提供了人工標註的場景圖,COCO-Stuff [3] 則根據地面真實物體位置構建合成場景圖。在這兩個數據集上,都會展現定性結果,演示其方法生成複雜圖像的能力。這些複雜圖像涉及輸入場景圖的對象和關係,並執行全面的圖像分割來驗證模型的每一個組件。
生成圖像模型的自動評估自己就是一個具備挑戰性的問題,因此經過兩個亞馬遜 Mechanical Turk 用戶研究評估了實驗結果。與 StackGAN 相比,這是一個領先的文本到圖像合成系統,用戶發現,該方法生成的結果在 68%的試驗中能更好地匹配 COCO 字幕,而且包含 59%以上的可識別對象。
實驗方法
做者的目標是開發一個模型,將輸入描述對象及其關係的場景圖做爲輸入,並生成與該圖對應的逼真圖像。主要的挑戰有三個:首先,必須開發一種處理圖形結構輸入的方法;其次,必須確保生成的圖像涉及圖形指定的對象和關係;第三,必須確保合成圖像真實。
做者將場景圖轉換爲圖像生成網絡 f 的圖像,如圖 2 所示,它輸入場景圖 G 和噪聲 z 並輸出圖像 I = f(G,z)。
場景圖 G 由一個圖形卷積網絡處理,該網絡給出每一個物體的嵌入矢量;如圖 2 和圖 3 所示,圖層卷積的每一個層沿着圖的邊緣混合信息。
咱們經過使用來自圖卷積網絡的對象嵌入向量來預測每一個對象的邊界框和分割掩模,從而尊重來自 G 的對象和關係;這些結合在一塊兒造成一個場景佈局,如圖 2 中間所示,它充當圖形和圖像域之間的中間層。
輸出圖像 I^是使用級聯精化網絡(CRN)從佈局生成的,如圖 2 右邊所示。每一個模塊都在處理佈局,增長空間尺度,最終生成圖像 I^。咱們經過對一對鑑別器網絡 Dimg 和 Dobj 進行對抗訓練 f 來生成逼真的圖像,這些網絡鼓勵圖像 I^看起來逼真。
關於實驗中每個組件更詳細的描述,可查閱原論文:https://arxiv.org/abs/1804.01622
圖2
圖像生成網絡 f 用於從場景圖生成圖像的概述。模型的輸入是指定對象和關係的場景圖; 它用圖形卷積網絡(圖 3)進行處理,該網絡沿着邊緣傳遞信息來計算全部對象的嵌入向量。這些向量被用來預測對象的邊界框和分割掩模,它們被組合造成場景佈局(圖 4)。使用級聯細化網絡(CRN)將佈局轉換爲圖像 [6]。該模型是針對一對鑑別器網絡進行敵對訓練的。在訓練期間,模型觀察地面真實物體邊界框和(可選)分割掩模,可是這些是在測試時由模型預測的。
圖3中顯示了單個圖形卷積層的示例計算圖。
圖3
計算機圖形表示單一的圖形變化層。 該圖由三個對象o1,o2和o3以及兩個邊(o1,r1,o2)和(o3,r2,o2)組成。 沿着每條邊,三個輸入向量被傳遞給函數gs,gp和go; gp直接計算邊的輸出矢量,而gs和go計算候選矢量,它們被饋送到對稱池函數h以計算對象的輸出矢量。
爲了生成圖像,必須從圖域移動到圖像域。爲此,做者使用對象嵌入向量來計算場景佈局,該場景佈局給出了生成圖像的粗略 2D 結構; 經過使用對象佈局網絡爲每一個對象預測分割掩碼和邊界框來計算場景佈局,如圖 4 所示。
圖4
圖 4 經過計算場景佈局從圖域轉移到圖像域。每一個對象的嵌入向量被傳遞給一個對象佈局網絡,該網絡預測對象的佈局,總結全部對象佈局給出場景佈局。對象佈局網絡在內部預測一個軟二進制分割掩碼和一個對象的邊界框; 這些與使用雙線性插值的嵌入向量組合以產生對象佈局。
圖5
圖 5 使用分別來自 Visual Genome(左四列)和 COCO(右四列)測試集的圖形生成 64×64 圖像爲例。對於每一個示例,都會顯示輸入場景圖和手動將場景圖轉換爲文本; 模型處理場景圖並預測由全部對象的邊界框和分割掩模組成的佈局; 而後這個佈局用於生成圖像。做者還使用地面實況而非預測的場景佈局顯示了模型的一些結果。一些場景圖具備重複的關係,如雙箭頭所示。爲了清楚起見,忽略了某些東西類別的遮罩,如天空,街道和水。
圖6
經過做者的方法生成的圖像通過 Visual Genome 訓練。在每一行中,咱們從左側的簡單場景圖形開始,逐步添加更多的對象和關係向右移動。圖像涉及關係,像「風箏下面的汽車」和「草地上的小船」。
部分實驗結果對比
表1
表 1 是使用 Inception 分數的消融研究。在每一個數據集上,做者將測試集樣本隨機分紅 5 組,並報告分組的平均值和標準差。在 COCO 上,經過構建不一樣的合成場景圖,爲每一個測試集圖像生成五個樣本。對於 StackGAN,做者爲每一個 COCO 測試集字幕生成一個圖像,並將其 256×256 輸出下采樣爲 64×64,以便與論文中的方法進行公平比較。
表2
表 2 是預測邊界框的統計。R@t 是具備 t 的 IoU 閾值的對象調用,而且與地面實況框測量協議。σx 和σ分別經過計算每一個對象類別中框 x 位置和麪積的標準誤差,而後對各個類別進行求平均來測量框的變化。
實驗結果分析
圖 5 顯示了來自 Visual Genome 和 COCO 測試集的示例場景圖以及使用論文做者方法生成的圖像,以及預測的對象邊界框和分割掩模。
從這些例子中能夠清楚地看到,該方法能夠生成具備多個對象的場景,甚至能夠生成多個相同對象類型的實例:例如圖 5(a)顯示了兩隻羊,(d)顯示了兩輛巴士,(g)顯示三我的,(i)顯示兩輛汽車。
這些例子還代表,該方法生成涉及輸入圖關係的圖像; 例如(i)看到第二個西蘭花左邊有一個西蘭花,第二個西蘭花下面有一個胡蘿蔔; 在(j)中,該男子正在騎馬,而且該男子的腿和馬的腿都已經被適當定位。圖 5 還顯示了該方法使用的是地表實況而不是預測的對象佈局生成的圖像。
在某些狀況下,該方法的預測佈局可能與地面實況對象佈局有很大差別。例如(k)圖中沒有指定鳥的位置,該方法使它站立在地面上,可是在地面真實佈局中,鳥在天空中飛行。模型有時會受到佈局預測的瓶頸,好比(n)使用地面實況而不是預測佈局顯着提升圖像質量。
在圖 6 中,經過從左側的簡單圖形開始,逐步構建更復雜的圖形來演示模型生成複雜圖像的能力。從這個例子中,能夠看到對象的位置受到圖中關係的影響:在頂部序列中,添加「汽車在風箏下面」關係後,形成使汽車向右移動,風箏向左移動,從而風箏和汽車的關係也發生變化。在底部序列中,將關係「船在草地上」添加後,致使船的位置移位。
總結
在本文中,做者開發了一種從場景圖生成圖像的端到端的方法。 與從文本描述生成圖像的領先方法相比,做者提出的從結構化場景圖而不是非結構化文本生成圖像的方法可以明確地解析對象和對象之間關係,並生成具備多個可識別對象的複雜圖像。
論文下載地址:https://arxiv.org/abs/1804.01622
艾伯特AI科技評論http://www.aibbt.com/a/29409.html
艾伯特(公衆號:悅動智能 | aibbtcom)