低成本更清晰，下一代視頻編碼技術將如何實現這一目標？

時間 2021-01-26

原文原文鏈接

摘要：下一代的視頻編碼技術還是採用傳統的演進思路——在經典架構上作模塊加強。

隨着短視頻、直播的興起，在線視頻領域用戶使用時長已超過社交領域，而5G時代視頻在互聯網的流量佔比將會增加至85~90%。面對用戶對視頻畫質要求的不斷提升，如何在有限帶寬的網絡環境中，實現更清晰、更低成本的視頻信號傳輸，一直是衆多視頻應用企業關心的問題。網絡

來自華爲雲的雲視頻服務的產品經理左雯，爲你們分享華爲雲視頻對下一代視頻編碼技術發展的想法和應用成果。分享的主題包括三個部分，首先是華爲雲視頻對視頻行業發展趨勢的一些見解，以及這些趨勢對下一代視頻編碼技術提出的挑戰；其次從標準角度來介紹下一代視頻編碼技術；最後從雲視頻應用角度來具體介紹華爲雲在視頻編碼技術上的一些實踐和探索，但願能給你們帶來啓發。架構

1. 視頻行業趨勢

5G、雲、AI 已經成爲ICT 行業甚至是整個社會的發展趨勢，促使整個視頻行業需求和技術不斷演進，推進整個視頻行業不斷升級。視頻生命週期的每一個環節都在更新升級，包括視頻生產、視頻處理、視頻傳輸和視頻消費。框架

視頻生產：多源數據的採集，包括超高清、VR、自由視角、3D建模和視頻渲染機器學習

視頻處理：基於 AI 讓視頻處理更實時、智能和準確，包括各類編碼方式
視頻傳輸：超低時延的傳輸，雲邊協同等等
視頻消費：智能終端的深度結合提供視頻服務的最佳體驗

視頻行業本質是對媒體數據的處理，背後是算力、存儲、網絡、AI 的支撐，同時視頻行業又推進着5G、雲、AI 的不斷前行，相輔相成！工具

視頻演進帶動了算力、存儲、帶寬需求的大幅增加。簡單來看，視頻分辨率愈來愈高，從高清到超高清再到8K/VR。算力增加 24 倍，存儲增加12 倍，帶寬增加 20 倍。這些需求經過雲，也只有經過雲才能獲得很好的知足，實現高質量的視頻體驗。雲原生視頻是行業趨勢，視頻將成爲雲的基礎服務能力。性能

前面說的是行業的總體趨勢，下面說一下具體場景。互聯網視頻發展已經歷了兩個階段，第一階段從08 年到13 年，以長視頻VOD、點播觀看爲熱點；第二階段，從13 年到19 年，也就是去年，其實還在延續，以直播、短視頻爲熱點；第三階段，也就是下一代，會以什麼爲熱點？咱們認爲由於5G、雲、AI 的推進，視頻將進入實時互動、VR/AR 時代。學習

視頻新玩法提出新訴求，互動視頻方式從IM 向實時音視頻過渡。直播連麥、主播PK、直播帶貨、視頻分發方式的升級，百毫秒級超低時延下一代視頻RTC成爲趨勢；VR/AR，360 度視角沉浸式體驗革命，用戶從看視頻向玩視頻過渡，體驗提高的同時，視頻傳輸能力從兆級向十兆甚至百兆級單流帶寬；雲遊戲帶來遊戲行業變革，十毫秒級別時延要求，推進媒體處理能力從雲上向邊緣遷移。優化

RTC 實時音視頻會成爲5G 時代基礎設施的核心控制點，RTC 應用很普遍，它的市場年增加率超過30%，並且這項技術不只能賦能直播、遊戲等泛娛樂行業，更能在在線醫療、教育、金融等大視頻行業滲透。編碼

現有的實時音視頻市場正處於爆發期，玩家不少，但因爲它是非雲廠商，難以持續發展。緣由之一是它的技術門檻比較高，特別是像音視頻編碼或者整個RTC網絡的構建，另外一點是目前各家均採用私有協議的方式接入，各家互通、客戶的自由切換都比較困難。在RTC 業務產品上，咱們認爲音視頻編碼處理將是各家構建技術壁壘和性能差別化競爭力的關鍵之一。設計

另一個應用場景就是Cloud VR，咱們一直認爲VR 是5G 技術發展下的關鍵場景。VR 發展是一波三折的，但在目前來看，以前碰到的一些問題正在逐漸改善。從終端的角度來看，以前的終端很貴，可是目前千元終端機已經逐漸來臨，並且體驗也會愈來愈好。除了設備終端，VR 此前還面臨內容缺失的重大問題，而VR 直播很大程度上緩解了內容缺少的問題。

雖然困境在逐步改善，但VR 目前還面臨着新的問題。互聯網VR 業務很難造成商業閉環，主要緣由在於VR 業務帶來了收入增長，但與此同時帶寬成本增長更多，VR 追求的高質量體驗須要經過更高帶寬來實現，高帶寬勢必會帶來高成本，而高成本就會致使商業沒法閉環。

在這樣的前提下，不少玩家都會經過下降體驗來開展VR，好比說內容採用4K 如下，碼率採用10 兆如下，終端採用卡片機來體驗VR，雖然這樣能夠將VR 的業務打通，但體驗效果是不好的，也致使付費用戶很是少，產業發展比較緩慢。因此在VR 的發展上，咱們認爲經過視頻壓縮編碼以下降帶寬是關鍵，是能夠幫助實現商業閉環的一個關鍵要素。

從前面講述視頻行業趨勢不難看出，用戶體驗升級、視頻產業升級、商業成本等驅動着視頻全方位升級，分辨率從高清到8K，幀頻從30 幀到120 幀，視場角從不到90 度到360 度，從SDR 到HDR 等，這些參數升級推進着視頻壓縮編碼技術不斷演進，追求壓縮比是永恆不變的！

另外，前車可鑑，HEVC/H.265，實際上是很優秀的編碼技術，但由於前期不友好的專利政策，市場佔有率一直不高於13%。還好目前有所好轉！整個行業急需壓縮比更高、生態更完善、專利政策更合理的視頻編碼技術。

提高壓縮比有兩條路線，這也是各廠商正在作的：

標準技術路線，做爲基礎內核，H.26六、AV一、AVS三、AI編碼

非標技術路線，依賴基礎標準，結合人眼感知特徵，感知編碼、內容編碼、ROI 編碼

2. 下一代視頻編碼技術

下面將從這兩個角度來介紹華爲雲視頻在下一代視頻編碼技術上的一些工做。這些技術得益於華爲2012 媒體技術院全力支持。

2.1 下一代視頻編碼標準技術

從上圖能夠看出，下一代的視頻編碼標準大概分爲三個陣營或者三個類型：

國際標準：由MPEG、VVC聯合推進的像 VVC/H.266還有 EVC

國內標準：國內標準組織正在推出或已經推出的 AVS3 的 phase一、AVS3 的 phase2，二者主要差異在於AVS3 的第1 階段標準瞄準H.266，第二階段的標準則是瞄準將來, 可能會加入一些智能編碼的技術

谷歌牽頭的AOM聯盟推出的 AV1，是一個開源技術

下一代的視頻編碼技術還是採用傳統的演進思路——在經典架構上作模塊加強。在H.266CFP 時，華爲聯合其餘幾家公司提了P41 提案，在PSNR 和MOS 評估方面都是排名第一，這個提案也是後面的基礎。華爲在VVC 裏的核心專利數量已屬於第一陣營，這是一個了不得的成就，也說明了國內的視頻壓縮編碼基礎研究實際上不弱於歐美傳統的公司。

以VVC 爲例，對其新增的加強工具進行盤點。縱軸是每一個工具的壓縮收益，橫軸是每一個工具編解碼複雜度，編碼複雜度的權重可能會更高一點。VVC 在塊劃分、幀內預測、幀間預測、熵編碼、變換量化等多個模塊上進行了加強，其中主要的加強是幀內、幀間預測、塊劃分、濾波的加強以及機器學習工具演進帶來的收益。VVC 暫時沒有引入深度學習這一類編碼工具。

圖中還有三個用紅圈標出來的工具，這是VVC 中公認trade off 比較好的三個工具點。藍色的是ALF，這是你們比較熟悉的自適應環路濾波，其實它在H.265的時代就已經有了， H.266 將它引入標準中；綠色的是仿射運動預測，這個主要是由華爲提出的；橙色的是量化技術。

EVC 標準的提出某種程度是由於H.265/H.266的專利政策不友好，有可能致使H.266 的落地都比較困難。MPEG 但願能經過一個新的專利友好的標準來推進落地，同時也促使改變H.26六、H.265 的專利受權政策。EVC 由華爲、三星、高通等共同提出推進，華爲在這裏面加入了不少技術。在標準立項時指望它比H.265 的壓縮性能提高20%，實測在4K 娛樂視頻上相比H.265 壓縮效率提高達30% 以上，目前已經進入了最終的標準投票階段。

AVS3 是國內提出的標準，它的phase1 是瞄準H.266 標準的，而且在2019 年3 月份就已經制定完成率先推出，在2019 年9 月份，華爲海思也同步推出了AVS3 8K 的解碼芯片，AVS3 相對H.265 性能提高了20% 以上，而且針對娛樂視頻和監控視頻作了不少針對性的設計，性能上還可進一步提高。

H.266 實際已經基本定稿，它的壓縮效率在4K視頻場景下相較於H.265 能提高40% 左右，其解碼複雜度相對提高60%，目前看最大的問題仍是專利政策不夠透明，並且專利費可能比較高，推廣節奏可能相對比較慢。

EVC 也基本定稿，並且其壓縮效率也能提高30% 左右，解碼複雜度相對H.265 增長60%。其專利收費可能相對比較低，第二是他的專利收費比較透明和明確，目前主要依靠三星、華爲、高通來作產業的推進和生態的構建。

AVS3 在2019 年3 月份推出，在性能上仍是有保證的，壓縮效率可以提高25%，複雜度增長相對較低，其專利收費也是比較低的，正經過互聯網等行業作產業的推進和生態構建，目前實際上有不少聯盟和公司正在作推進，咱們也但願AVS3 儘快落地。

表格中沒有列舉AV1 的數據，這主要是由於它和其餘三個標準不太同樣，AV1 開源軟件其實是瞄準商用化去作的，你們也比較清楚其壓縮效率和解碼複雜度。AV1 有個很大的優點就是沒有專利費，這是AOM 聯盟的承諾。在產業落地方面AV1 作的很好，生態構建走的較前。

2.2 AI編碼

下一代視頻編碼標準還有一個趨勢就是AI 編碼，這一塊實際上從HEVC、VVC 標準制定就有提出，但由於考慮計算複雜度以及AI 硬件普適性，都暫時擱置了。但這是個技術趨勢。

AI 編碼包括兩個演進思路：

第一個是全新架構，相似於圖像編碼，實際上AI 的圖像編碼已經取得了不錯的成效，谷歌牽頭的AI 圖像編碼技術都已經獲得了很好地應用，但針對視頻中的應用還在探索過程當中。所謂的全新架構，就是不用傳統架構，視頻進入黑盒後會得出一個壓縮過的視頻，這個視頻可能沒有塊劃分，也沒有各類其餘的方式，它的壓縮效率會很是高，但這一切還處於研究的過程當中。

另一個思路是基於經典架構，對每一個架構裏的模塊作加強。例如針對塊劃分、變換、矢量量化、幀內預測作不一樣的AI 網絡適應和加強。實際上華爲也在作這方面的研究，將來可能會提出一些AI 編碼方面的論文或提案。而且咱們認爲AI 編碼的這兩種思路，最終將是融合設計的過程，不會呈相互孤立的狀態。

3. 華爲雲視頻應用和實踐

3.1 雲視頻簡介

上面簡單介紹了下一代視頻編碼標準技術，下面介紹一下從實際商用及非標角度，介紹一下華爲雲視頻在視頻編碼技術上的應用和實踐。

首先介紹一下華爲雲視頻，華爲雲視頻是從2017 年開始構建的，目前包括兩大類業務，一種是比較傳統的直播、點播、媒體處理以及監控業務，另外一種是整個行業正在新晉的服務，好比RTC、VR/AR 以及超高清直播。華爲雲視頻面向不少的場景，例如娛樂直播、短視頻、在線教育、企業直播、4K 直播、4K 製做等等，咱們致力於幫助行業客戶、夥伴、開發者、ISV 快速上線應用，並幫他們構建差別化的競爭力，實現商業閉環。這裏須要重點提一下RTC，RTC 是華爲雲視頻對下一代視頻的理解並做出了實際的推進，針對RTC，咱們重點構建超低時延、音視頻質量等差別化競爭力。

3.2 視頻編碼技術

3.2.1視頻編碼框架

結合今天的主題，下面重點講解華爲雲視頻在視頻編碼技術上的一些工做。這些技術得力於華爲2012 媒體技術院全力支持。編碼內核採用了一個標準的編碼器，相似於前面提到的H.26四、H.26五、AVS三、H.266 或者EVC 這一類，在這個編碼內核的基礎上，咱們面向不一樣的場景作了不一樣的編碼技術的優化和實踐。好比面向RTC 實時音視頻場景，採用低時延編碼技術；面向VR 場景，採用FOV tile 編碼；面向多視角場景，採用空間雲邊協同編碼；面向監控場景，採用智能語義編碼；面向直播、點播，採用感知編碼和畫質加強等；另外，華爲雲視頻藉助鯤鵬、昇騰兩大專有硬件，加速視頻編轉碼效率。鯤鵬主要面向CPU 這類計算，昇騰主要面向AI 方面的加速。

3.2.2標準編碼內核

接下來分別介紹一下視頻編碼的技術，第一是編碼內核，華爲雲在商用編碼器上面也有不少的技術積累。好比說近幾年在MSU 的大賽上，HW265 編碼器連續兩年得到多項測評的第1 名，今年咱們也會向MSU 推出新的編碼器。

3.2.3 高清低碼

第二個技術是高清低碼，高清低碼目前在各個廠商或者商業領域裏是你們比較默認的技術，也就是說在基於標準編碼內核的基礎上，能下降碼率的同時保證主觀質量沒有降低，但實際上高清低碼理論可行性是現有視頻編碼是基於香農定理，它的率失真模型都是連續的，可是人眼視覺模型是階梯性非連續的，在這個階梯上存在一個降碼率的空間。

高清低碼通常狀況下包括三個模塊：
第一是基於人眼 JND 模型，就是說如何找出JND；
第二是基於 JND去作感知編碼；
第三就是經過感知編碼來控制標準編碼內核輸出，在主觀質量不變的狀況下大幅下降碼率。

華爲雲視頻在這方面作了不少的工做，目前針對不一樣的應用場景，能達到30~50% 的碼率下降。

高清低碼技術如今也走到了一個瓶頸期，原有高清低碼的考慮僅來源於編碼與傳輸信道，隨着AI 技術的發展，是否還有進一步的發展空間？華爲提出了一種新的思路：在原有的率失真模型上，加入一個接收端（解碼端）複雜度的因子，也就是在發送端主動退化，把它經過時域或者空域的下采樣變成一個相對數據量比較小的視頻，這樣作使得編碼的碼率相對更低，達到有效下降碼率的目標。經過一些輔助信息再加上低碼率、低分辨率的編碼碼流，在接收端經過AI 技術進行超分、插幀或者是加強，將視頻還原，如此整個鏈路上傳輸的碼率會大幅降低，咱們初步試驗發現至少能下降60% 以上的碼率。

3.2.4 超低時延編碼

RTC 場景是咱們面向下一代視頻產業重點打造的服務能力，RTC 場景下主要是超低時延的編碼，咱們提出了一個綜合的超低時延方案，好比編碼和渲染聯合優化、編碼的內核以及分層編碼和信源信道協同等技術手段，面向不一樣的實時場景會作不一樣的組合或者應用，咱們初步試驗發如今1080P 這種場景下進行編碼和解碼，總體的時延能達到十毫秒級別。

3.2.5 VR FOV編碼

面向VR 場景，特別是面向360°場景，咱們提出來FOV TWS 的編碼技術。這個技術原理是將高分辨率的全景視頻分片，多個FOV 的小分片加上一路4K 的背景流，這樣4K 終端的播放器就能經過相應的視角FOV分片和4K 全景背景流實現8K VR 全景視頻播放，同時還能保證MTP，不會出現眩暈感。該技術已經寫入OMAF 的標準。總體體驗上也獲得了用戶的承認。

3.2.6 智能語義編碼

當面向監控場景的時候，咱們提出了一種智能語義的編碼，主要經過背景建模加上視頻內容和運動分析，再加上端側的一些實時超分、插幀來構建智能語義編碼的方案。監控場景的畫面每每有不少細節，各類機器分析的識別率不能下降，若是壓的太狠，識別率可能就會降低。初步的原型結果顯示能作到在人和機器的識別率都不下降的前提下，達到70% 以上的碼率節省。

3.2.7 空間視頻雲邊協同編碼

另一個技術是空間視頻編碼，所謂空間視頻就是自由視角或多視角，這也是之後技術發展的一個方向。人們再也不知足於一個固定視角視頻觀看，但願多視點或者自由視角的觀看視頻。在空間視頻的編解碼當中，咱們提出一種雲邊協同編碼，經過這種編碼能夠在邊緣很是短的時間內按需動態的生成任意時刻的切換流，大幅減小通常方案中切換流的碼率，初步試驗發現至少能下降60% 左右的帶寬成本。

3.2.8 AI視頻加強

視頻質量、視頻碼率時視頻產業最關鍵的兩個指標。前面講的技術，無論是標準的技術、仍是非標的技術，都是追求在同等畫質的前提下，如何下降碼率。
硬幣的另外一面則是，在同等碼率下，如何追求視頻主觀體驗質量。咱們在這方面也作了不少嘗試，根據不一樣的場景特徵，基於雲端、終端AI 能力，從分辨率、幀頻動態範圍等維度對視頻進行修復、加強和重建。而且考慮真實場景中每每是包含多種混合失真的等因素，咱們提出一種面向混合失真的多任務視頻加強框架，可以很好地適應不一樣場景和不一樣需求。