一個算法「拿下」兩個榜單!愛奇藝這篇ICCV 2021論文提出人手三維重建新方法

2016年Facebook正式發售Oculus Rift頭戴式VR設備,大大革新了人們對於VR技術的認知,這一年也所以被稱爲VR元年。5年過去,如今VR技術發展到哪了?從原生VR遊戲《半條命:愛莉克斯》來看,在這類遊戲場景下,人們與虛擬世界的交互上已經很是成熟。算法

《半條命:愛莉克斯》動圖(gif)網絡

但龐大的頭顯設備,還是阻礙VR應用普及的重要緣由。還以《半條命:愛莉克斯》爲例,這部遊戲的精華是在於手部交互,而實現撿東西、扔東西、扣動扳機等等複雜的虛擬交互,則須要一部VR頭盔和一部VR手柄才能完成框架

近日,計算機視覺領域國際頂會 ICCV 2021 收錄了一篇題爲「I2UV-HandNet: Image-to-UV Prediction Network for Accurate and High-fidelity 3D Hand Mesh Modeling」論文,論文由愛奇藝深度學習雲算法團隊聯合慕尼黑工業大學學者完成,他們在論文中提出一套名爲I2UV-HandNet高精度手部重建系統,經過「看」單目RGB人手圖片,就能實現高精度三維重建。ide

論文地址:https://arxiv.org/abs/2102.03725函數

言外之意,若是將這項技術「適配」到有攝像功能的眼鏡或者頭盔中,那麼使用者即便不用手柄,也能實現與虛擬世界的高質量對話。性能

重建效果如何?該論文已經在頗受承認的HO3D在線測評榜上,力壓羣雄,持續數月排名第一。Freihand 在線測評榜上,截至論文編寫時仍排名第一。學習

圖注:HO3D 榜單排行結果,紅框處爲愛奇藝測試

圖注:論文編寫時Freihand榜單排行結果,紅框處爲愛奇藝。優化

目前,研究員們正在嘗試將該技術應用到愛奇藝下一代VR設備中,從而減小對手柄依賴,打造出更輕、更快、更溫馨的VR設備。同時手勢重建、交互技術目前也同步在愛奇藝其餘業務場景和硬件終端進行落地探索,相信不久後會相繼和戶見面編碼

I2UV-HandNet:業界獨創的手部三維重建技術

在人機交互和虛擬現實的應用中,高精度的人手三維重建技術發揮着重要做用。但因爲手勢多變以及嚴重的遮擋,現有的重建方法在準確性和精度方面差些火候。

一方面,目前學術界在進行手部三維重建評測,如在Freihand數據集上進行評測主要是突出算法的精度優點,不須要考慮算力、延遲等,因此能夠採用計算複雜度很是高(如transformer等)的一些算法。

另外一方面在工業界,特別是VR等移動端設備,在算力、功耗、電池的續航及發熱等各方面有嚴格限制,在應用上必須採用計算複雜度偏低的算法。

而VR等設備的攝像頭由於移動端硬件的功耗、續航限制必須下降清晰度而不是採用高清晰度的攝像頭,採集到的圖像清晰度相對偏低,這對於算法的識別就存在必定挑戰性。

圖注:I2UV-HandNet框架圖,由AffineNet和SRNet組成

愛奇藝這篇論文中提出的I2UV-HandNet,首創性將UV映射表徵引入到三維手勢和形狀估計中,其設計的UV重建模塊AffineNet可以從單目圖像中預測手部網絡(hand mesh),從而完成由粗到精的人手3D模型重建。

這一設計意味着對於三維重建中所需的空間中景深信息,不用再經過昂貴的硬件完成偵測,在普通RGB攝像頭拍攝的圖片中就可完成景深信息獲取。

I2UV-HandNet另外一個組成部分是SRNet網絡,其做用是對已有人手三維模型進行更高精度的重建。SRNet網絡以研究團隊首創的「將點的超分轉化爲圖像超分的思想」爲原則,實現在不增長過多計算量的狀況下,進行上萬點雲的超分重建。

此外,因爲缺少高保真的手部數據來訓練SRNet,研究團隊構建了一個名爲SuperHandScan的掃描數據集訓練SRNet。因爲SRNet的輸入是基於UV的「粗糙」手部網格。所以SRNet的應用範圍很廣,換句話說,一個「訓練有素」的SRNet能夠對任何粗手部網格進行超分辨率重建。

據介紹,SRNet和AffineNet組成的I2UV-HandNet系統,未作任何優化狀況下,可以在Nvidia v100達到46fps;而通過工程優化後版本可以在驍龍865CPU+DSP下達到實時。

注:在FreiHAND上進行真實場景下多姿態的人手3D重建對比,↓表示越低越好,↑表示越高越好。

爲了驗證I2UV-HandNet方法對姿態的魯棒性,研究團隊選用包含大量姿態的真實人手數據集FreiHAND做爲測試集,並經過FreiHAND Competition在線測評與相關SOTA工做進行對比,結果如上所示,證實了該UV重建方法的有效性。

注:在HO3D上進行真實場景下具備遮擋的人手3D重建實驗對比,↓表示越低越好,↑表示越高越好。

同時爲了驗證在各類遮擋場景下的重建性能,研究團隊選取包含大量遮擋樣本的HO3D數據集進行測評,結果如上所示,各項指標也都達到了SOTA。

注:↓表示越低越好,↑表示越高越好。

爲了定量評價SRNet,研究團隊在HIC數據集上進行了實驗。如上所示SRNet的輸出(表中的「OUTPUT」)獲得了優於原始深度圖的結果

模型介紹:AffineNet+SRNet=I2UV-HandNet

圖注:AffineNet網絡框架圖,AffineNet由編碼網絡和解碼網絡組成,在解碼時經過Affine Connection和多stage完成由粗到精的UV學習。

 

如上圖所示,AffineNet由編解碼網絡組成,編碼骨幹網絡ResNet-50,解碼時採用由粗到精的層級結構,其中Affine Connection是指經過當前層級預測的UV用仿射變換(相似STN)的方式實現編碼特徵向UV圖的對齊,即

同時有:

以及:

其中表示分辨率下的編碼特徵圖,表示將放大2倍,表示根據稠密的在固定投影矩陣的投影座標,表示Affine Connection操做,A ^i 表示經過仿射變換後與 UV 對齊後的特徵圖,相對於 E ^i ,其包含更多與手相關的特徵。表示分辨率下的解碼特徵圖,表示卷積操做。經過上面個公式看出,解碼過程本質上就是一套低分辨率UVmap到高分辨率UVmap重建的過程,同時也是3D點雲重建由粗到精的過程。

AffineNet的損失函數分爲3項:

其中,使用L1做爲UV的重建Loss:

爲真實UV圖,爲重建結果,M爲UV的3D手有效映射掩碼

UV圖本質上能夠當作將3D模型上每一個三角面不重疊地映射到二維平面,因此在UV圖上對應的三角片區域的值應該是連續的,所以引入Gradient loss:

其中分別表示在UV圖的U軸和V方向求梯度。

在訓練階段對分辨率最大的4個stage(即i=0,1,2,3)重建的UV進行優化,其中,投影矩陣選用正投影矩陣,每一個stage間的loss比例都爲1。

圖注:SRNet每層的設置

SRNet的網絡結構相似於超分辨率卷積神經網絡(SRCNN),但輸入和輸出是UV圖而RGB圖像。

研究團隊巧妙地經過UV圖的方式將點的超分轉換爲圖像的超分,將僞高精度UV圖做爲輸入,高精度UV圖做爲標籤,經過僞高精度3D模型生成的UV圖到高精度3D模型生成的UV圖的超分學習,完成1538個面到6152個面778個點到3093個點的超分學習,超分Loss設計以下:

在測試階段只須要將AffineNet重建的UV圖做爲輸入,即可獲得通過超分重建後的高精度UV圖,從而實現人手的高精度3D重建。

將AffineNet和SRNet結合成I2UV-HandNet系統即可完成High-fidelity的人手3D重建。爲了快速驗證將點的超分轉化爲圖像的超分的可行性,研究團隊將SRCNN網絡結構用於SRNet中,並選取SHS數據集進行訓練。

Batch size設置爲512輸入UV圖的大小爲256*256初始學習率爲1e-3,優化器Adam並採用cosine lr降低方式,並在scale、旋轉等方面進行數據增廣。

同時爲了網絡模型具備更好的泛化性,也隨機對高精度UV圖進行高斯平緩處理,並將結果做爲網絡的輸入。在測試時,將AffineNet輸出的UV圖做爲SRNet的輸入實現I2UV-HandNet系統的high-fidelity 3D人手重建。

相關文章
相關標籤/搜索