會議更流暢,表情更生動!視頻生成編碼 VS 國際最新 VVC 標準

阿里雲視頻雲的標準與實現團隊與香港城市大學聯合開發了基於 AI 生成的人臉視頻壓縮體系,相比於 VVC 標準,二者質量至關時能夠取得 40%-65% 的碼率節省,旨在用最前沿的技術,普惠視頻通話、視頻會議、在線教育等重要應用領域。

做者|王釗 、葉琰、王詩淇網絡

審校| 泰一框架

https://www.youku.com/video/X...ide

基於 AI 生成的人臉視頻壓縮

繼線上購物、線上支付後,在線教育、在線辦公、在線互娛也流行起來,豐富着咱們的平常工做生活,其中一大功臣 —— 視頻,是主要的推進力。整個社會的大趨勢在走向內容視頻化,交互線上化。視頻雲業務成爲雲業務中最煊赫一時的版塊,雲端一體創造了更低成本、更低門檻、更強體驗、全民共享的技術普惠能力。釘釘也成爲一種新的工做學習方式,經過視頻會議幫助億萬人解決異地工做的問題,幫助億萬中小學生解決在家上課的問題。性能

不管是視頻會議仍是其它視頻場景,視頻壓縮都是最基本也是最核心的能力。國際 ISO/IEC 與 ITU-T 標準組制定的一代代視頻壓縮標準,如 H.264/AVC (2003),H.265/HEVC (2013) 等,表明了視頻壓縮能力的每一次重大發展。在 2020 年,最新的國際視頻壓縮標準 H.266/VVC 正式完成制定,相比於 H.265/HEVC,能夠提升一倍壓縮率,相比於 H.264/AVC,能夠提升四倍壓縮率。學習

AI 技術的興起也在向普遍的應用領域發起挑戰。其中,號稱 「萬物皆可生成」 的 GAN(對抗生成網絡) 則被一些互聯網科技巨頭公司嘗試用於會議視頻壓縮上。2020 年,Facebook 與 Nvidia 均發佈了基於生成的會議視頻壓縮方法,報告顯示能夠取得明顯優於 H.264/AVC 的壓縮效率。測試

今天,阿里雲視頻雲的標準與實現團隊經過和香港城市大學的緊密合做,也推出了基於 AI 生成的會議視頻壓縮系統,相比於最新的 VVC 標準,在實驗室測試場景中,相同的人眼觀看質量下能夠節省 40%-65% 的碼率。VVC 已經表明着業界最早進的視頻壓縮能力,而咱們系統相比於 VVC 所顯示的技術優點則意味着咱們有望能夠在不久的未來大幅度拉開釘釘視頻會議和競品系統之間的技術差距,用一半的帶寬開相同質量的釘釘視頻會議!阿里雲

傳統客觀質量評價指標如 PSNR、SSIM 等依賴於像素級的失真計算,並不適用於生成任務的失真評價。DISTS 指標( PAMI2020[1] )和 LPISP 指標( CVPR2018[2] ) 是兩個近年來質量評估領域的頂級文章,它們經過深度特徵來度量解碼圖像與原始圖像的類似度,能夠更好地針對基於 GAN 的視頻壓縮場景進行質量評價,所以它們與人眼主觀質量評測的相關度遠高於 PSNR 和 SSIM 這些傳統指標。編碼

當咱們視頻雲的基於 AI 生成的會議視頻壓縮系統與 VVC 參考軟件使用相同的碼率時,視頻雲生成壓縮系統的解碼視頻相比於 VVC 能夠得到 40%-65% 的質量提高。也就是說,在相同的帶寬下,用戶能夠享受到更加清晰、生動的畫質。spa

在 DISTS 客觀指標至關時,視頻雲的生成壓縮系統與 VVC 對好比頂部視頻所示。經過觀察對比視頻效果能夠看到,視頻雲的基於 AI 生成的壓縮系統與 VVC 相比有大幅的帶寬成本下降(只用 1/3 左右的帶寬),同時在視頻清晰度和主觀質量上能夠取得明顯優點。視頻

因爲 VVC 是基於傳統視頻壓縮框架,所以在低碼率下容易出現視頻模糊不清以及塊效應等主觀質量問題,而視頻雲的生成壓縮系統則能夠在更低碼率下依然很好地保持面部細節和五官清晰度。在碼率 / 帶寬至關時,視頻雲的生成壓縮系統與 VVC 編碼對比視頻以下,相比於 VVC 畫面清晰度和主觀質量的優點更是明顯,面部表情栩栩如生。

https://www.youku.com/video/X...

壓縮系統關鍵技術

咱們提出的基於 AI 生成的視頻雲會議視頻壓縮系統的編碼端包含兩部分:壓縮源圖像的 VVC 編碼器和用於提取其餘圖像幀的臉部運動信息的臉部探測器。首先,經過對源圖像在 VVC 編碼器中在必定的量化步長下進行壓縮,並傳輸相應的比特流到解碼端。其次,在臉部探測器的幫助下咱們能夠進一步提取後續其餘圖像幀的關鍵點和雅可比矩陣,用於表示這些圖像幀的臉部運動信息。這些臉部關鍵點和雅可比矩陣進行幀間殘差預測和算術編碼,實現壓縮並傳輸到解碼端。

解碼端首先解碼出源圖像,而後解碼出待生成幀對應的關鍵點與雅可比矩陣。解碼端的生成模型會以源圖像、關鍵點和雅可比矩陣做爲輸入,對關鍵點對應的高維空間進行矩陣變換,並做用於源圖像提出的高維特徵圖上,從而輸出最終的生成圖像。下圖給出了一個可視化示例。

與 VVC 編碼實驗對比

咱們對 30 我的臉視頻 (上圖) 進行了 VVC 編碼與基於 AI 生成的視頻壓縮對比。VVC 編碼器在低延遲模式 (Low-delay B) 下使用量化參數 (QP) 32, 37, 42, 47。視頻雲的基於 AI 的生成壓縮方法一樣測試了 4 個不一樣的碼率點。測試集上的平均編碼質量與碼率以下表所示。

表 1 視頻雲的生成壓縮系統與 VVC 的壓縮性能對比,DISTS 與 LPIPS 數值越低表示質量越高

根據實驗結果,能夠看到在至關的解碼視頻質量下,視頻雲的生成壓縮方法相比於 VVC 能夠帶來 40%-65% 的平均碼率節省,同時這個壓縮性能的優點在低碼率場景下更加明顯。把質量評分與碼率作成相應的失真 - 碼率曲線,對好比下:


圖 4 視頻雲的生成壓縮方案與 VVC 的壓縮效率對比圖

在碼率至關時,視頻雲的生成壓縮系統與 VVC 解碼視頻的主觀對比圖示例以下:

可見在低碼率下 VVC 容易出現畫面模糊的狀況,而視頻雲的生成壓縮系統的清晰度更高。

在解碼質量至關時,視頻雲的生成壓縮系統與 VVC 解碼視頻的碼率對好比下:

能夠看到,在壓縮質量至關時,視頻雲的生成壓縮系統相比於國際最新 VVC 標準可將壓縮率提升 40%-65%。這不只極大下降了相關視頻應用的帶寬成本,還可讓用戶享受到更生動、更流暢的視頻體驗!

參考文獻:

[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity." IEEE transactions on pattern analysis and machine intelligence.

[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

「視頻雲技術」你最值得關注的音視頻技術公衆號,每週推送來自阿里雲一線的實踐技術文章,在這裏與音視頻領域一流工程師交流切磋。
相關文章
相關標籤/搜索