內容提要:只需幾個不一樣視角的視頻,就能把整我的體形象 360° 無死角地構建起來,不得不說,AI 的腦補能力愈來愈強大。這樣的工具,從此將可能爲影視業、體育節目呈現等帶來新的突破。
原創:HyperAI超神經git
關鍵詞:人體新視圖合成 動態 3Dgithub
將來,咱們的看電影、球賽以及演唱會等的方式,可能被「自由視角視頻」(free-viewpoint video)完全改變。網絡
你可能不知道什麼是「自由視角視頻」,但你應該體驗過 VR、AR 視頻,或者玩過 3D 遊戲,這些都屬於自由視角視頻的範疇,其特色即是:能夠從任意角度觀看,提供徹底沉浸式的觀感。框架
觀衆能夠切換任意視角,再也不侷限於導播鏡頭ide
這種視頻到底怎麼才能拍出來?通常來講,傳統的方法是,須要好多臺攝像機從不一樣角度一塊兒拍,而後把全部角度的視頻合成在一塊兒。函數
好比這樣,在各個角度佈滿攝像頭獲取多個角度的畫面最終合成爲自由視角視頻工具
可是這種方式依賴於多個攝像機,不只成本昂貴,還受限於拍攝場地的環境。學習
還有一種方式,能夠擺脫這些限制,只需輸入少許角度拍攝的人體鏡頭,即可合成 360° 的人體 3D 新視圖。這即是來自浙江大學的研究人員,最近發表的最新成果。優化
12 月底,該團隊在 arxiv 上發表了新論文_《Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans》_,提出一種新的人體表示 Neural Body,用稀疏多視角視頻進行動態 3D 人體新視圖的合成。通過實驗驗證,該方法優於此前的其它方法。編碼
Neural Body:用於動態人像新視圖合成的結構化潛碼隱式神經表徵
論文地址:https://arxiv.org/pdf/2012.15...
值得一提的是,該論文背後的七位做者,均來就讀或畢業於浙江大學,並來自浙江大學計算機輔助設計與圖形學國家重點實驗室。其中,Hujun Bao(鮑虎軍)、Xiaowei Zhou(周曉巍)均爲該實驗室教授,Yinghao Xu(徐英豪) 與 Qianqian Wang 本科畢業後,分別於港中文與康奈爾大學攻讀博士學位。
目前,不管是影視節目,或是體育賽事,咱們所看到的都是來自單個攝像頭所拍攝的畫面。若是可以獲得「自由視角視頻」,想看哪裏看哪裏,那必定會是上帝視角通常的體驗。
事實上,AI 近幾年也在研究這個問題,並誕生了諸如 NeRF、Neural Volumes (簡稱 NV)等視圖合成方案。
不過,目前已有的研究代表,在密集的輸入視圖條件下,學習三維場景的隱式神經表示能夠得到很好的視圖合成質量。然而,若是視圖是高度稀疏的,表示學習將是不適定的。
NeRF(左一)NV (中)與新方法效果對比,前二者均出現失真、變形等問題
所以,爲了解決這個不適定問題,來自浙大、港中文和康奈爾大學的研究團隊,提出在視頻幀上整合觀察結果的關鍵思想。
團隊的最新研究成果中,提出了 Neural Body。這是一種新的人體表示,它假設在不一樣幀上學習到的神經表示共享,錨定在一個可變形網格上的相同的潛碼集,以便跨幀的觀察能夠天然地集成。可變形網格也爲網絡提供了幾何指導,以更有效地學習 3D 表示。
Neural Body 的基本思想
研究人員在一個新收集的多視圖數據集上進行了實驗,結果代表,該方法在視圖合成質量方面,與以前的方法相比,具備很大的優點。
團隊在 demo 演示中,展現了其方法從作出各類動做的人物的單目視頻中,重建移動的人物的能力。
從 4 個角度的視頻圖像中,獲得自由視角視頻結果
這一方法大大下降了自由視角視頻合成的成本,至少,省下了攝像機的成本,所以也具備更普遍的適用性。
1、結構化的潛碼
爲了控制潛碼的空間位置與人體姿態,團隊將這些潛碼錨定到一個可變形人體模型(SMPL)。SMPL 是一個基於皮膚頂點的模型,它被定義爲形狀參數、姿式參數和相對於 SMPL 座標系的剛體變換函數。
潛碼與神經網絡,一塊兒用於表示人的局部幾何和外觀。將這些代碼錨定在一個可變形的模型上,可以表示一個動態的人。經過動態人的表示,團隊創建了一個潛在變量模型,將同一組潛碼映射到不一樣幀的密度和顏色的隱式域中,天然地整合了觀察結果。
2、代碼擴散
因爲結構化的潛碼在三維空間中比較稀疏,直接對潛碼進行插值會致使大多數三維點的向量爲零。爲了解決這個問題,團隊將表面上定義的潛碼擴散到附近的三維空間。
因爲代碼的擴散不該該受到人在世界座標系中的位置和方向的影響,他們將代碼的位置轉換爲 SMPL 座標系。
代碼擴散還將結構化潛碼的全局和局部信息集合起來,有助於學習隱式域。
3、密度和顏色迴歸
圖(b)概述了三維空間中任意點的密度和顏色的迴歸
研究團隊發現,時間變化因素會影響人體的外觀,如二次照明和自陰影。受自動解碼器的啓發,團隊爲每一個視頻幀分配了一個潛在的嵌入框架 t,以編碼時間變化的因素。
4、體繪製
在給定的視點下,團隊利用經典的體繪製(volume rendering,也稱立體渲染)技術,將 Neural Body 渲染成二維圖像。
而後,基於 SMPL 模型估計場景邊界,接着,Neural Body 會預測這些點的體積密度和顏色。
在體繪製的基礎上,經過對渲染圖像和觀測圖像的比較,對模型進行了優化。
5、訓練
與基於幀的重建方法相比,該方法利用視頻中的全部圖像來優化模型,並擁有更多的信息來恢復 3D 結構。
此外,團隊採用 Adam 優化器來訓練 Neural Body。訓練在四個 2080 Ti GPU 上進行。對於一個共 300 幀的四視圖視頻,訓練一般須要大約 14 小時。
通過以上五個步驟,Neural Body 得以實現基於少許視圖的自由視角視頻合成,並且與其餘方法對比,效果明顯優於前者。
三種方法輸出結果的 PSNR(峯值信噪比)對比數值越大,代表輸出圖像質量越好
注:「OURS*」 和「OURS」分別表明只在一幀視頻和在四幀視頻訓練的結果)
AI 的腦補技術,讓 3D 效果的實現愈來愈簡便,而它的應用也不止是影視業與體育賽事直播領域,對於遊戲開發者、健身指導、3D 廣告提供商等來講,都是可以大大提高工做效率與效果的工具。
將來的影院、賽場,可能人手一部 iPad,想看哪裏點哪裏?
項目主頁: