告別渣畫質,視頻會議帶寬降90%,英偉達公開Maxine服務背後重要技術 - 知乎

10 月初,英偉達推出了一項 AI 視頻會議服務 Maxine,使用了 AI 來提高分辨率、下降背景噪聲、壓縮視頻、對齊人臉以及執行實時翻譯和轉錄。最近,英偉達團隊發佈的新論文揭露了這背後的技術。

機器之心報道,做者:魔王、蛋醬。網絡

若是讓打工人用幾個關鍵詞總結 2020 年的生活,「視頻會議」應該是其中一個。架構

受疫情影響,這一年來,遠程辦公和視頻會議正在成爲新的潮流。在忍受會議枯燥的同時,不少人迷上了 AI 換臉,指望可以實現「一邊開會,一邊摸魚」的夢想。此前機器之心也介紹過 Avatarify這樣的熱門項目。框架

只是…… 效果不必定很理想:ide

給出一我的的源圖像,和一我的的動做視頻(此處稱爲驅動視頻 (driving video),動做視頻和源圖像中的人物能夠一致或不一致),如何合成逼真的說話者頭部視頻,即將源圖像中的頭像與驅動視頻中的動做合二爲一。源圖像編碼目標人物的外觀,驅動視頻決定輸出視頻中的人物動做。函數

最近,針對這一任務,英偉達提出了一種純神經式的渲染方法,即不使用人物頭部的 3D 圖模型,只使用在 one-shot 設置下訓練而成的深度網絡,進行說話者頭部視頻的渲染。學習

論文連接:https://arxiv.org/pdf/2011.15126.pdf編碼

與 3D 圖模型相比,基於 2D 的方法具有多項優點:首先,避免了繁雜、昂貴的 3D 模型獲取;其次,2D 方法能夠更好地處理頭髮、鬍鬚等的合成,而得到這些區域的詳細 3D 幾何形狀則有必定的挑戰性;最後,無需 3D 模型,2D 方法能夠直接合成源圖像中的配飾,包括眼鏡、帽子、圍巾等。spa

可是,現有的 2D 方法存在一些侷限性。因爲缺乏 3D 圖模型,2D 方法只能從原始視角合成說話者頭部視頻,沒法重新的角度進行渲染。翻譯

而英偉達的方法解決了 2D 方法的固定視角問題,並實現了局部自由視角合成,你能夠在原始視角的必定範圍內改變說話者頭部的角度。3d

該模型使用新型 3D 關鍵點表徵來表示視頻,3D 關鍵點表徵的特色是將人物特定信息和動做相關信息分解開來,關鍵點及其分解均使用無監督學習方式獲得。使用該分解,英偉達可以對人物特定表徵應用 3D 變換,來模擬頭部姿式的變化,如轉動頭部。下圖 2 展現了英偉達提出的新方法:

研究者在多個說話者頭部合成任務中進行了大量實驗驗證,包括視頻重建、動做遷移和人臉重定向(face redirection),還將該方法應用於下降視頻會議的帶寬。經過僅發送關鍵點表徵、在接收端重建源視頻,該方法將視頻會議帶寬降至 H.264 商用標準所需帶寬的十分之一,且不影響視覺質量。

視頻重建效果。 動做遷移。 人臉重定向。

這項研究基於前段時間英偉達開源的 Imaginaire庫,也是英偉達 Maxine 視頻流平臺背後的技術組成部分之一。

GAN 發明者 Ian Goodfellow 在推特上點贊並表示:「Cool,博士時期的實驗室夥伴曾研究預訓練階段的 ML 壓縮,我記得這很難。」

主要貢獻

該研究的主要貢獻以下:

  • 提出新型 one-shot 神經說話者頭部合成方法,在基準數據集上得到了比 SOTA 方法更好的視覺質量;
  • 在沒有 3D 圖模型的狀況下,實現了對輸出視頻的局部自由視角控制,即在合成過程當中容許改變說話者頭部的角度;
  • 將視頻會議的帶寬,降至 H.264 視頻壓縮標準所需帶寬的十分之一。

英偉達新方法

英偉達提出一種純神經合成方法,不使用 3D 圖模型。該方法包含三個主要步驟:

  • 源圖像特徵提取;
  • 驅動視頻特徵提取;
  • 視頻合成。

研究者使用一組網絡並進行聯合訓練,來完成這些步驟。

其中前兩個步驟參見下圖 3:

圖 3:源圖像和驅動視頻特徵提取。

具體而言,該研究從源圖像中提取人物外觀特徵和 3D 典型關鍵點及其雅克比行列式,同時還估計人物頭部姿式和表情變化引發的關鍵點擾動,利用它們來計算源關鍵點。

對於驅動視頻,研究者仍舊估計其頭部姿式和表情形變。經過重用來自源圖像的 3D 典型關鍵點,來計算驅動關鍵點。

第三個步驟參見圖 5:

圖 5:視頻合成。

該步驟中,研究人員使用源關鍵點、驅動關鍵點及其雅克比行列式來估計 K 個 flow(w_一、w_二、w_k),這些 flow 用於扭曲源特徵 f_s。而後將這些結果結合起來輸入到運動場(motion field)估計網絡 M,獲得流分解掩碼 m。將 m 和 w_k flow 進行線性組合獲得合成流場 w(composited flow field),可用於扭曲 3D 源特徵。最後,生成器 G 將扭曲後的特徵轉換爲輸出圖像 y。

而該方法還包括一個主要環節:用無監督方式學習一組 3D 關鍵點及其分解。研究人員將這些關鍵點分解成兩部分:一部分建模人臉表情,一部分建模人物的幾何特徵。兩者與目標人物頭部姿式相結合,就能夠生成圖像特定的關鍵點,而後利用它們學習兩個圖像之間的映射函數。

在第一個步驟中,從源圖像獲得的關鍵點是圖像特定的,且包含人物特徵、姿式和表情信息。關鍵點計算流程參見下圖 4:

訓練細節

下圖展現了該模型中網絡的實現細節,以及模型構造塊詳情:

圖 12:模型中各個組件的具體架構。 圖 13:模型構造塊。

實驗

說話者頭部圖像合成

這部分涉及兩個任務:相同人物的圖像合成和不一樣人物的動做遷移。

首先是源圖像和驅動圖像中人物身份一致的狀況。研究者對比了五種人臉合成方法,量化評估結果參見下表 1。能夠看出,該研究提出的方法在兩個數據集的全部指標上的表現均優於其餘方法。

在圖 6 和圖 7 中,研究者分別展現了不一樣方法的定性比較結果,該研究提出的方法可以更加真實地再現動做變化。

接下來,研究者在源圖像和驅動圖像中人物不一樣的狀況下,進行方法對比,結果如表 2 所示。該研究提出的方法取得了最低的 FID 分數。

圖 8 展現了不一樣方法間的對比結果,能夠看出英偉達方法生成的結果更爲真實,且保留了原有的人物特徵。

人臉重定向

研究人員對 pixel2style2pixel (pSp)、Rotate-and-Render (RaR) 和該研究提出方法進行了量化對比,結果參見下表 3:

三種方法的示例對比結果如圖 9 所示。

能夠看出,pSp 模型雖然可以將人臉前置,但會丟失人物的身份特徵。RaR 採用了 3D 人臉模型,所以生成結果的視覺效果更具吸引力,但在人臉區域之外的地方存在問題。此外,這兩種方法都存在時間穩定性問題。對比之下,該研究提出方法實現了不錯的人臉前置效果。

在視頻會議中的應用

該模型可以利用緊湊表徵對驅動圖像中的動做進行蒸餾,這有助於下降視頻會議應用的帶寬。視頻會議流程能夠看作接收者看到發送者面部的動態版本。

圖 10 展現了使用該研究提出的神經說話者頭部模型搭建的視頻會議系統。

圖 10:視頻壓縮框架。

在發送端,驅動圖像編碼器提出關鍵點擾動δ_d,k 和頭部姿式 R_d 和 t_d,而後使用熵編碼器進行壓縮並傳送至接收端。接收端對信息進行解壓縮,並將其與源圖像 s 結合生成輸入 d 的重建結果 y。

論文做者表示,目前該方法在壓縮方面的優點僅限於說話者頭部視頻,至於通常的視頻壓縮,還未能達到如此理想的效果。

目前,英偉達已經開放了在線演示網址:http://nvidia-research-mingyuliu.com/face_redirection

相關文章
相關標籤/搜索