AV1是開放媒體聯盟Alliance for Open Media (AOM) 開發的第一代視頻編碼標準,自推出以來得到了產業界巨大關注和支持。騰訊多媒體實驗室也加入進來和其餘公司團隊一同積極推進AV1編碼器的優化和落地,爲客戶提供高性能和高效率的雲端編碼服務。本文是對騰訊多媒體實驗室專家研究員趙欣老師在「雲加社區沙龍online」的分享整理,但願與你們一同交流。html
1、視頻編碼的發展歷程
視頻編碼領域國際上有 4 個主流的標準組織:網絡
1. 動態圖像專家組(MPEG)
MPEG 組織隸屬 ISO 和 IEC,1988 年由 Hiroshi Yasuda(NTT) 和 Leonardo Chiariglione 建立,會員主要包括產業界,大學和研究機構。框架
2. 視頻編碼專家組(VCEG)
VCEG 隸屬國際電信聯盟(ITU),總部設置在瑞士日內瓦。會員包括產業界,1984 年建立,第一次會在日本東京舉辦。ide
3. 數字音視頻編解碼技術標準專家組(AVS)
AVS 是我國本身的標準組織。2002 年由國家原信息產業部科學技術司批准成立,會員由 92 家大學和公司組成,成員單位集中在中國。第一次會於 2002 年在北京舉辦,近幾年逐漸得到國際領域的關注,已有國外企業加入。性能
4. 開放媒體聯盟(AOMedia)
AOMedia 於 2015 年成立,會員包括 44 家公司,其中董事會包括 14 家公司,至關一部分紅員爲美國灣區的互聯網公司,由多媒體實驗室牽頭,騰訊 2019 年以董事會成員身份加入AOMedia,成爲董事會成員中迄今爲止惟一的一家中國企業。這也是騰訊在國際視頻標準舞臺上的里程碑之一。學習
標準組織推出的標準主要能夠分爲三部分,其中比較特殊的就是 ISO 和 IEC 旗下的 MPEG 和 ITU 旗下的 VCEG,它們之間有着千絲萬縷的聯繫。優化
這兩個標準組織都成立於上世紀的八十年代,最初分別推出了各自的一套標準,隨着業界對於統一標準的呼聲愈來愈高,便聯合推出了 MPEG-2及H.264/AVC 等標準,這也推動了流媒體行業的發展。網絡傳輸協議
AVS 目前推出了三個標準,分別是 AVS一、AVS2 和 AVS3,這三個都是我國自主知識產權的標準,也是我國在視頻標準領域的一個驕傲。編碼
第三個標準是 AOMedia,由於比較年輕,目前推出的惟一一個標準是 AV1。AV1 的前身是 VP-8 和 VP-9,這兩個標準是 Google 公司主要應用在流媒體業務上的私有標準。
關於VVC 的標準制定,騰訊於 2017 年末纔開始投入,通過兩年多的努力,多媒體實驗室多人擔任 VVC 標準聯合主編,VVC 參考軟件聯席主席, 多項核心實驗召集人、多個專家小組主席等職位。騰訊在 VVC 標準的制定過程當中,扮演了至關重要的角色。
AOMedia 則是由騰訊多媒體實驗室從 2019 年開始推進,並於同年 10 月騰訊以董事會成員身份加入。
下圖是國際主流視頻標準專利池的分佈狀況。以 HEVC 爲例,總共有超過 17000 件專利。專利池主要有三個,分別是 HEVCAdvance、MPEG-LA 和 VELOS。
在 HEVC 階段,專利池的局面是至關龐大而且複雜的。還有一些公司雖然投入了,可是立場比較微妙,遊走在三個專利池以外。由於向三個專利池繳納專利費用是很是昂貴的,這帶來了一個問題,就是流媒體產品出海會面臨一些風險。
正是由於這種複雜的局面,致使了 AOMedia 的誕生。AOMedia 的主要目標就是開發免專利費的視頻編碼標準,全部加入 AOMedia 的企業均可以避免費使用 AOMedia 旗下的標準。
2、新一代 AV1 視頻標準
1. AV1 編碼技術
首先咱們來介紹一下 AV1 的編碼技術。AV1 是 2018 年定稿的新一代視頻壓縮標準,它採用了所謂的混合編碼技術框架。
AV1 的整個編碼系統是由不少的模塊混合在一塊兒構成的,每一個模塊是從不一樣的角度和手段,對圖像不一樣方面的數據冗餘度進行去壓縮。因此不一樣的模塊聯合在一塊兒,相輔相成,實現比較高的性能,這就是混合編碼技術框架。
混合編碼技術框架所採用的的基本技術流程,就是好比說這是一個輸入的圖像,它會先把這個圖像以塊爲單位劃分紅多個塊,而後以塊爲單位進行項目預測,預測完以後再進行變換,變換以後再進行量化和熵編碼,造成壓縮的數據。過去幾十年來編解碼的技術框架都是按照混合編碼技術框架來實現的。
(1)塊劃分
AV1 編碼的塊劃分技術,就是把圖像劃分紅多個矩形塊,而後以塊爲單位去解碼圖像。在 AV1 中圖像會劃分紅 128x128 的單元,也就是最大編碼單元,簡稱 LCU。LCU 能夠進一步的劃爲四等份(SPLIT)或者二等份(HORZ,VERT)。四等份的子塊能夠進一步遞歸劃分,而且每一個子塊能夠按照最多九種劃分方式進一步劃分爲更小的單元。
須要這麼多模式的緣由,是由於圖像的內容自己就是複雜多樣的,咱們爲了針對複雜多樣的圖像進行最有效的編碼,就須要對圖像進行同步的劃分。
一般一個物體有多個組成部分,一般須要把它劃分爲多個部分,每一個部分採用不一樣的預測模式,針對性的進行預測。
(2)幀內預測
下面咱們講一下預測的環節。所謂的幀內預測,就是去除圖像之間的空間冗餘,所謂的空間冗餘就是一個像素和它周圍的像素有很強的相關性。好比白牆的顏色都是單一的顏色,每一個點的像素和其餘像素的趨勢很是接近,這就會致使一個很強的數據冗餘。幀內預測就是利用必定的技術手段來去除這種空間上的數據冗餘。
主要的方式包括如下五種:
-
方向預測模式
-
遞歸濾波模式
-
Paeth 預測算子
-
交叉份量預測模式
-
DC 預測模式,平滑預測模式
方向預測就是假設圖像有方向性的紋理,沿方向進行預測就能夠把圖像預測的比較好。
遞歸濾波模式是把圖像分紅細分塊的單位,每一個單位會和周圍像素行成一個濾波器,而後進行線性加權預測,這種模式下濾波的過程須要串行進行。
Paeth 預測算子是當圖像在局部呈現平面的一個假設。另外還有交叉份量預測模式,這種模式主要針對顏色圖像。顏色有三份量,每一個份量之間具備很強的相關性。
此外還有 DC 預測模式和平滑預測模式。這兩種模式主要局勢針對平滑紋理的預測。
(3)幀間預測
幀間預測是指不以圖像上的時間的冗餘。所謂時間冗餘是指視頻是由一系列的圖像順序播放完成的,因此構成了視頻。那麼爲何順序播放能夠構成視頻?由於在空間上他們屬於同一個產品、同一個內容,可是有一些運動上的差別,因此在數據上有很是強的相關性。
爲了處理這種相關性,就會在 AV1 上引入仿射運動模型,模仿旋轉、縮放等比較複雜的模型。相似的還有重疊塊運動模補償、混合預測模式等。
(4) 變換
擴展的變換類型包括:DCT、ADST、IDT、Flip-ADST 這幾種。AV1 最多支持 16 種行列變換組合。
(5) 熵編碼
熵編碼包含的主要新興技術是多符號(Multi-Symbol)上下文自適應算術編碼引擎,相比二值算術編碼引擎,單週期可提高熵編碼吞吐量。
(6)環內濾波
環內濾波包含去塊效應濾波、約束方向加強濾波和環路修復濾波。環路修復濾波包含維納濾波和自導向投影濾波。
(7) 調色板模式
調色板模式是指針對視頻圖像的屏幕內容,亮度/色度取值稀疏,把圖像進行索引編碼圖形塊。
(8) 幀內塊匹配
騰訊的 LOGO(Tencent) 中包含兩個 n 和兩個 e,圖像比較複雜,若是把圖像 n 編碼完以後,增長一個矢量就能夠預測另外一個 n,效果會得到提高。
2. AV1 編碼應用場景
AV1 的一個重要應用場景就是流媒體。開放媒體聯盟中有不少流媒體公司,除騰訊之外還包括 Google、Youtube、Netflix、Hulu 還有愛奇藝等公司。Youtube 上目前高清視頻上線使用的就是 AV1 和 VP9 兩種編碼格式的組合,今年已經有采用 AV1 編碼的 8K 視頻上線。Netflix 自 2020 年 2 月起也支持 Android 上的 AV1 流媒體播放。
騰訊多媒體實驗室積極研發AV1編解碼的商業應用技術產品。去年騰訊視頻雲合做多媒體實驗室推出AV1直播與點播服務,騰訊視頻雲成爲國內首家直播 + 點播同時支持 AV1 視頻處理業務的公有云廠商。此外多媒體實驗室聯合騰訊其餘編解碼團隊一塊兒推進AV1編解碼器在不一樣業務中的商業化落地。實驗室正在與騰訊視頻進行合做推廣AV1在產品業務中的應用。
在雲轉碼方面,AWS Elemental MediaConvert 在 2020 年 3 月宣佈支持 AV1 編碼格式。
3、AV1 標準與雲端編碼
在雲端編碼方面,AV1 有以下幾個優點:
-
AV1的開源社區提供豐富的編碼器配置應對不一樣的業務需求,例如實時檔/非實時
-
支持時域可伸縮性(Temporal Scalability)
-
支持幀級超分辨率編碼(SpatialScalability)
-
免專利版權費,支持產品出海
在多媒體實驗方面,騰訊多媒體實驗室和騰訊雲、騰訊視頻展開合做。騰訊多媒體實驗室和騰訊雲正積極推動視頻 AV1 標準的商業應用。由多媒體實驗室推進,騰訊以董事會成員加入即將成立的 SVT Foundation,助力開源社區 AV1 軟件編碼。
下面咱們簡單介紹一下下一代視頻編碼標準。
首先是 Versatile Video Coding 標準,是由 ITU-T SG 16 WP 3 和 ISO/IEC JTC 1/SC 29/WG 11(MPEG) 聯合工做組 JVET 推出,2018 年 4 月份於美國聖迭戈(San Diego)會議正式啓動,2020 年 7 月標準文檔定稿。
相比較上一代 HEVC 標準,達到 35% 的碼率節省(相同 PSNR 質量前提下),參考軟件編碼時間 10 倍,解碼時間 2 倍。
騰訊多媒體實驗室在 VVC 歷時兩年多的標準化歷程中,得到近百項技術提案採納,填補了騰訊 在國際視頻標準化領域的空白。騰訊多媒體實驗室多人在 VVC 標準化過程當中擔任重要職位,包括標準聯合主編,參考軟件聯席 主席,多個核心實驗負責人,多個專家小組主席。
除了 VVC,還有 AOMedia Video 2 標準。
AOMedia 於 2019 年開始籌備下一代標準 AV2,下一代AV2標準的參考軟件平臺預計近期將推出。騰訊多媒體實驗室和 Google 聯合組織技術討論,成立編碼技術孵化組(Incubator Group) ,目前騰訊多媒體實驗室初步已推出三項編碼技術,相關工做發表在 ICIP 2020。
4、Q&A
Q:爲何會有這麼多的編碼標準?
A:這個和視頻編碼發展的歷程有關。最開始制定視頻編碼標準有兩個標準組織,分別是 MPEG 和 VCEG。它們分別開發本身的標準,這個對業界會產生一些困惑,因此後來兩個標準組織聯手集中資源和力量來開發一套共同的標準。
這套標準很是成功,在業界產生了很是巨大的影響力,蛋糕也越作越大,關注的公司愈來愈多,專利池的規模也是迅速增加。所謂分久必合、合久必分,後來爲了應對這個複雜局面,促進技術的更新迭代,其它標準組織也應運而生,包括 AVS 和 AOMedia,主要是針對高昂的專利版權費產生的。
Q:AV1 會引導下一代視頻編碼的潮流麼?
A:我的認爲下一代視頻編碼會是一個百家爭鳴的狀態。咱們知道國際視頻編碼標準已經發展了幾十年,有很是完善的標準制定流程,參與者也很是衆多,技術實力很是雄厚,因此他們對標準的打磨功力也是積累深厚的。
AOM 是一個相對年輕的標準組織,它的技術力量投入目前來講相對集中一些。目前來講,對於下一代的AV2標準的技術研發,騰訊和 Google 的投入相比其它AOM成員而言更大一些。雖然AOM比較年輕,可是經過騰訊多媒體實驗室的力量投入,多家公司聯合起來在技術上不斷打磨,但願可以下一代AV2標準的技術研發上做出更大突破。
我以爲AOM最大的優點是免專利版權費。若是想用複雜度更高的能夠考慮國際組織標準,各取所需。我也但願將來各個標準組織能夠進行必定的融合,求同存異,集中力量造福整個產業。
Q:免專利版權費是永久的麼?
A:開放媒體聯盟創立之初,目標就是專利版權費,但這實際上是不容易的,會遇到一些挑戰。咱們瞭解到其餘非AOM會員公司也宣稱持有這樣的標準的必要專利。
在開放媒體聯盟旗下的公司對業界的影響力是巨大的,免專利版權費是咱們的一個宗旨,一個根本。
Q:AV1 相比其餘有哪些優點?
A:主要是性能上的優點。AV1 和 HEVC、VP9 屬於不一樣代的標準,據我瞭解 AV1 與上一代標準相比有 20% 多的提高,這在帶寬上會有很大的一個節省。另外,對於新興的視頻業務,好比 8K 視頻,AV1 的性能優點將更爲突出。
Q:專利池的問題會長期存在麼?
A:這是一個困惑產業界好久的問題,而且不容易解決,因此纔會有開放媒體聯盟的誕生。目前國際標準組織有所謂的組織來解決專利池的問題。目前我尚未看到完善的解決方案,但你們已經意識到這個問題的嚴重性,積極的推進解決方案。但願從此在專利池的問題解決同事,產業界能夠有效地利用新技術。
Q:AV1 軟件效率過低,後續能有多大優化空間?是否只能期待硬件編碼改善這個問題?
A:軟件編碼效率我理解的是速度這種功耗上的效率,其實它的編碼性能仍是至關可觀的。編碼性能的優化空間應該是沒有止境的,在前兩年,編碼器的優化迭代會比較快,但這是一個持續的事情。騰訊多媒體實驗在這塊也有很大的投入,但願可以推進AV1軟件編碼器的發展和普遍部署。另外,近期開放媒體聯盟內部也是持續的有好消息,有很是顯著的性能提升。
Q:會有更多的硬件廠商支持麼?
A:我理解是會有的,並且是強力的支持。據我瞭解,在硬件解碼方面聯發科、三星、LG 都已經推出了相應的硬件解碼。在編碼當中,是有更大難度挑戰的,在硬件編碼器上,咱們預期在今年年末或者將來的2-4年內會有更多硬件增加的支持。
Q:騰訊多媒體實驗室是怎樣一個存在?
A:騰訊多媒體實驗室,專一於多媒體技術及相關領域的前沿技術探索、研發、應用和落地。研究領域及產品研發方向包含音視頻編解碼、網絡傳輸和實時通訊,基於信號處理和深度學習的多媒體內容處理、分析、理解和質量評估,以及沉浸式媒體(VR、AR、點雲等)系統設計和端到端解決方案。實驗室持續爲多項業務輸出核心技術和工程實現,涵蓋辦公、教育、文化旅遊、電競、泛娛樂等多個領域,服務千萬級DAU,並經過騰訊雲輸出通用解決方案及產品。實驗室同時負責國際國內行業標準制定,包含多媒體數據壓縮,網絡傳輸協議,多媒體系統,5G和AI等。
騰訊多媒體實驗室擁有500餘件多媒體及相關領域全球專利(含專利申請),其中近200項專利被多媒體數據壓縮、系統和網絡傳輸協議等國際標準採納。多媒體實驗室表明公司得到多項世界組織蓆位,擔任包括國際8K協會董事,開放媒體聯盟(AOM)董事,DASH論壇董事長等職務。
Q:目前都是靠軟解AV1 麼?
A:目前硬件解碼器已經有推出,包括聯發科的天璣 1000,還有三星和 LG 推出的 8K 電視都是內嵌了 AV1 的硬件解碼器。
Q:AV1 除了直播、點播等,還有哪些應用場景?好比醫療影像能夠應用嗎?
A:醫療影像由於有其特定的需求,好比須要圖像的失真很是低,還有實時的操做等,若是圖像出現瑕疵會對醫療診斷產生干擾,這是必須避免的。
在此以外,視頻應用的需求在開放媒體聯盟組織成員構成上也有必定程度的體現,目前尚未看到有醫療影像公司加入這個組織。從技術自己來講,AV1運用在醫療影像是徹底沒有問題的,AV1 是支持很是高質量的圖像和視頻編碼。除過醫療影像、直播、點播等,凡是涉及到視頻通訊的應用場景,好比文化旅遊,教育等領域,以及VR全景視頻,8K視頻等新興應用場景AV1都有其用武之地,咱們也但願AV1可以普遍應用在視頻通訊的各個應用場景,助力整個多媒體行業的發展。
這也是騰訊加入開放媒體聯盟的初衷,若是但願標準組織能夠考慮到公司業務的具體需求,就能夠加入這個標準,反饋一些業務上的需求,這樣標準的制定就能夠更好地符合特定業務的需求。
做者簡介
趙欣,騰訊多媒體實驗室專家研究員。負責新一代視頻壓縮算法的研發工做及標準制定工做。自2017年加入騰訊以來,重點參與過新一代國際視頻壓縮標準H.266/VVC的制定工做,負責研發多項騰訊的專利技術並推進將其採納進入H.266/VVC標準,填補騰訊在國際視頻標準領域的空白。目前重點參與了騰訊AV1編碼器的開源協同項目和開源社區SVT編碼器的優化工做,並負責開放媒體聯盟(AOM)旗下的標準制定,包括下一代AV2標準的技術預研和標準籌備工做。
「雲加社區」公衆號,回覆「PPT」獲取老師演講PPT~