本文整理了北京大學教授馬思偉在 RTC 2018 實時互聯網大會上的分享,從技術、編碼與傳輸角度,分享了媒體編碼的現狀與將來,以及 AVS 編碼標準的技術現狀。如下爲速記整理。前端
歡迎訪問 RTC 開發者社區,與更多實時音視頻開發者交流經驗。
算法
個人演講主題是《新媒體編碼時代》。這裏的「新」有兩個含義,第一是指新時代,技術與應用場景出現創新;第二是指媒體「新」,須要編碼的材料數據改變了。
後端
我在 RTC 2017 曾講過《視頻編碼將來簡史》。當時叫視頻編碼新時代(如上圖圖解),革命之一是採集革命,採集的數據發生了變化,視頻從標清向高清、超高清方向發展。還有其它的一些數據,包括光場、點雲、神經脈衝。理論也有不少,包括傳統的奈奎斯特採樣、壓縮感知。
微信
革命之二是計算革命,編碼計算提高了不少,有 CPU、GPU、NPU,計算能力的提高使得原先因太過複雜而沒法使用的算法變得可用了,提升了編碼效率。網絡
第三個是認知革命,數據處理有了新的方法,處理能力更強了,業界談的比較多的方法就是深度學習。框架
基於這三個革命,編碼在朝智能編碼的方向發展。其實,智能編碼並非新概念,80年代後期到90年代中期,業界一直在講智能編碼。不過,到如今爲止智能編碼還始終處於第二代。ide
今天,我從三方面講:新媒體,咱們看到新的數據類型要編碼;新技術,技術從編碼、傳輸、跨媒體智能講,咱們朝智能方向發展了;新應用,通常是你們說的 4K、8K、VR 這些應用。學習
新媒體編碼時代:新媒體
優化
首先講新媒體。不少人介紹本身專業的時候一般說我是作數字媒體技術的,或多媒體技術的。咱們要把媒體和技術分開來看,所謂的技術是計算機對媒體的處理技術。在之前「通訊基本靠吼,交通基本靠走」的年代,沒有媒體,後來出現了文字,再後來,聲音、視頻、圖像能夠保存,隨後催生了新的產業。接着出現了 3D、AR、VR,最後到智能媒體。總的來講,技術催生新媒體的誕生,這是關於媒體的介紹。如今提的比較多的凡是包含三維信息好比光場、點雲的媒體都統稱爲新媒體、三維媒體,這些不是新名詞,只是如今咱們強調的愈來愈多。編碼
關於沉浸媒體,在今年的 ACM Multimedia Systems 大會上,Philip Chou 提出,「Holograms are the Next Video」。在他看來,全息是下一代視頻。上面有兩個圖,1977年的星球大戰電影裏,出現了光場投影,是那時候咱們最初對三維沉浸媒體的想象。右圖則是2018年的想象。咱們已經想象了40多年。Philip Chou 在會上有兩句話我印象很深入,一句話是「Hologram compression today is like video compression in 1988」。王田博士也講到,今天的點雲編碼水平,至關於 30 年前視頻編碼的水平。1988 年時 MPEG 剛剛成立,當時只有 JPEG。MPEG1-VCD 是在 1992 年纔出現的。另外一句話是關於流媒體的,「Hologram streaming today is like video treaming in 1997」。1997 年,國際會議在討論流媒體技術。我想,當初討論流媒體技術的人看到今天互聯網流媒體的發展,應該是感到很震驚的。還有一句話,「若是你看到了視頻的發展趨勢,那麼你必定會一樣看到全息的趨勢。」 因此,沉浸媒體是將來的趨勢。
關於沉浸媒體提供的感受,主要有三類:視覺、聽覺、交互。視覺要提供更高分辨率,分辨率上去以後才更清楚、更清晰。聽覺方面,要高質量、三維全景聲,感受比如演唱會、演奏會。交互方面,講求低延時、交互天然。
沉浸式媒體的系統是比較複雜的,從前端採集到中間編碼傳輸到後端顯示時間,每一個模塊都是相互關係很強的,每一個模塊都得作好才能呈現好的效果。
相關的組織都在作不少的研究,大概能夠分紅上圖這樣幾個層次,第一個層次是關於最基本的數據的表示,看到的 JEPG 圖像、MPEG 視頻、IEEE、AVS;中間層是關於應用,好比 VR-IF,3GPP 等國際組織都在演講。上層是體驗,用戶端體驗作很差用戶確定不接受,包括 ITU-T、VQEG、QUALINET 等組織。
咱們今天關心的主要是最底層的編碼技術表示。今天另外一場演講中,王田老師提到了沉浸式媒體,這是 MPEG 目前作的工做標準。這些技術的應用從早先 MPEG一、2,後來到了 MPEG4,H.265 等等。
咱們今天主要說的是 MPEG-I,沉浸式媒體。上圖是 MPEG-I 的發展路線圖,只包含視覺相關的,不包含音頻的內容。其中之一是關於 New Video Codec,還有點雲,從靜態對象到動態對象,以及光場,包括相機陣列等。
咱們熟悉的是手機上數碼相機上都在用的 JPG。但實際上 JPEG 作了不少,其中一個是 XL,新一代圖像壓縮;另外一個是 PLENO,光場圖像壓縮。
AVS 一直都在作高效視頻編碼,作的是面向廣播的編碼。從 2002 年開始,至今已經 16 年了。2006 年成爲國家標準,進展比較快,2012 年能 AVS 成爲廣電行標,2016 年 AVS2 成爲廣電行標,也是國家標準。目前在4K的超清廣播應用比較多,今年 10 月作試運行,明年北京冬奧會會有 4K 的超清廣播。對於 VR,AVS 有一個 HV 的工做組,有專門面向 VR 的 HV1857.9 視頻標準。
先普及一下沉浸式視頻的多維度屬性。包括分辨率,從標清到高清到超高清,有更高的幀率、更高的採樣精度,更多的模型數據,色域更豐富。
全景視頻方面,視場角中的 1° 能看到 60 個像素就能夠達到視網膜級別。若是是 4K ,視角是 36°,平均下來每度 100 多個像素。有時候說看 4K 就夠了,不須要 8K 了,依據是從這兒來的。但實際上,8K 以後視角變得更大,也須要更高的像素。若是以這個算目前的 4K 全景,平均下來 1° 只有 11 個像素,離 4K 高清差的很遠。爲何 4K 全景質量差?由於自己信號提供的就不夠。若是要作全景視頻,按照前面的分辨率算的話,像素值至少要到 22Kx11K,徹底全景的話要 24Kx12K。計算下來數據量達到 4Gbps,只能等 5G 技術的到來。
還有其餘媒體,點雲、網格、光場、深度之間均可以轉換處理,不止體如今數據格式上轉換處理,後面編碼的時候也能夠作相應的融合。
剛纔看到的都是比較傳統的相機採集的數據進行編碼,如今已經出現了另一種形式的採集,是在仿生的採集(如上圖)。原理是這樣的。首先,視頻採集的數據量很大,尤爲是運動速度很快的時候,普通的相機採集的話都會出現模糊。第二,咱們採集完這些視頻再作處理,作特徵的提取,進行對象的分析識別。這個處理過程與人的視覺識別處理是相差很遠的。第一個問題,人眼是每秒 30 幀嗎?確定不是,由於人眼的獲取原理自己就和傳統相機不同。那麼仿生採集指的就是後端傳輸的是神經脈衝信號,當環境中要測那個點發生變化時才傳輸信號,這個原理與普通的相機採集不同。可是傳輸神經脈衝信號後如何進行編碼,到如今也沒有徹底解決。咱們能夠看下面這個視頻,它直觀解釋了傳統相機採集與仿生採集的區別。
新媒體編碼時代:新技術
如今已經進入第三代標準時期。MPEGY 有 VVC(Versatile Video Coding),俗稱是萬能的。AV一、AVS3,都是第三代標準。
視頻編碼作了這麼多代標準,作編碼的人會問編碼效率作了這麼多優化,繼續作下去有沒有意義?
有一個經濟學的悖論:提高資源消耗效率,結果消耗的資源更多。好比,要提升煤炭的燃燒效率,後來煤炭的燃燒效率提上去了,煤燒得更多了。原理是效率支撐了更多的需求,從而帶來了更多資源的消耗。帶寬傳送也是同樣,若是咱們提高帶寬,進一步提高壓縮效率,全景視頻、點雲等新的應用就會跟着來,而後帶寬消耗還會更高。從這個角度來看,須要更高效的壓縮技術。
再看編碼的具體技術,下圖是咱們熟悉的框架,編碼所作的工做很是精細、瑣碎。整個工程就像手錶裏一個個鏈接的小齒輪、大齒輪。咱們的工做就是刪掉其中一個齒輪或者把幾個齒輪併成一個齒輪,並讓表跑得更準,更省電。
在 AVS3 的時間規劃上,預計明年 8 月份會發布初版,初版是複雜度和效率作的比較平衡的一版。2021 年會發布第二版,最終目標是面向8K、VR、流媒體等應用,編碼效率比 AVS2 再高一倍。AVS3 的特徵能夠這從兩方面看,傳統技術 AVS 在作不少研究,包括塊劃分、運動預測、變換等;智能方面也有研究,,用神經網絡作變化預測濾波,編碼與傳輸的聯合。
早先咱們一直作的是信源信道聯合編碼。咱們能夠靠一些傳輸技術來折中編碼效率,不用很複雜的編碼方法就達到編碼效率的提高,好比,媒體端 CDN 中存了不少視頻流,不一樣流之間存在關聯,一句話解釋就是相似於 P2P 傳輸式,我能夠在傳輸中利用高層的傳輸支持達到相關內容的更高效的預測編碼。利用這種技術能夠提高 30% 以上的壓縮效率。
國際標準方面,2015年10月份已經開始圍繞新一代 JVET VVC 標準進行討論,如今已經三年了。技術進展很快,編碼效率相比 H.265 提高 40% 以上。今年4月份在聖地亞哥開的一次會議上,有一個環節:響應提案徵集,SDR 有 22 項提案,HDR 12 項,360 全景 12 項。
下圖那次會提交的 SDR 提案徵集。中國從 1996 年開始參加 MPEG,前期參與的時候主要是大學和研究所,沒有中國的公司。可是近年,中國的公司,好比華爲、海康威視、騰訊、大疆、頭條等都開始積極參與國際標準的制定,這是很好的現象。同時說明中國近十年二十年來培養了很多人才,這是咱們學校的貢獻。也歡迎更多的公司能夠參與國際標準,也能夠參與 AVS 標準的制定。AVS 和 MPEG China 是一體的,加入 AVS 就至關於加入 MPEG China。
再看技術狀況,新特點是體如今從信號處理到深度學習。這些提案裏,有5個都用到了深度學習的技術,其中有關於預測的,也有關於濾波的。我會重點講一下預測。
神經網絡和編碼之間的聯繫在哪兒呢?能夠用一個比較簡單的圖來解釋。下圖是傳統的變換,分解成變換系數,後來作量化、反量化,量化反量化以後帶來失真。失真以後如何作一個最優的量化,使得量化的偏差最小?最小偏差範圍表示成二進制的形式,S一、S2 每一個數要麼是 0 要麼是 1。量化決策的過程,其實是,選擇 0 或者選擇 1 使得整個偏差最小,這就是一個優化的問題。優化的問題就是神經網絡最擅長的工做,這個工做就能夠交給神經網絡,幫你選擇是 0 仍是 1,這是變換和神經網絡的相通之處。
原來作幀的預測,選周圍像素,找一個插值濾波器,使得插值以後要逼近預測的值,使得偏差最小。若是用神經網絡作的話,把周圍像素傳過去,神經網絡幫我找加權、找偏移量。計算完以後失真最小,那麼網絡就訓練好了。之後作預測的時候,把數據送給它就自動處理,像黑盒同樣。這就是基於神經網絡的預測。
目前用神經網絡去作變換、預測、濾波的已經有不少了,每一個模塊都不少。但若是隻作這些的話,仍是像玩票同樣。畢竟神經網絡在模式識別方面應用得很好,到了編碼這邊作了不少,可是尚未戰勝傳統編碼,仍是基於信號處理這套。
如今有了新的概念,Towards Conceptual Compression。在下圖中,最底部的一行原始圖像,最頂部模糊的編碼的。從上面的編碼,一步步推理迭代,可以生成底下的原始圖像,這是用神經網絡來作的。我認爲能夠叫作概念(意象)壓縮。它強調的是,人的腦子裏對一個圖像有個模糊的印象,可是偏偏靠這個模糊的印象就可以作斷定。這個概念正在進行中。
這是另一個工做,剛纔是用神經網絡作表示、作生成,如今能夠用神經網絡在壓縮層次上提供對這個內容分析理解的支持。傳統基於信號處理的壓縮,若是要進行分析會很困難。若是是基於神經網絡的話,因爲是基於特徵的表示,對於媒體的分析理解會更加智能。
再看一看媒體分析,從多媒體到跨媒體。左邊從視頻到文字,給定視頻後能夠對應生成文字。右邊反過來再從文字生成視頻,從文字到視頻比較有限制,限制於數據集,靠文字描述生成視頻出來。這種技術再結合前邊基於神經網絡的壓縮,智能壓縮前景無限,這種技術對媒體的分析和理解確定比傳統編碼更優越。
接下來的內容是關於新媒體編碼。關於光場,目前光場有兩類,一類是基於相機陣列,還有用一些小凸透鏡,至關於集中成像。對於光場,新類型的媒體能夠用現有的框架去進行編碼。
對於點雲,雖然咱們感受它是新數據,其實也有比較好的編碼處理方法。原來圖像是二維的,分紅一個塊一個塊處理。到了點雲以後是三維的,也很簡單,把它分紅三維的塊,原來是平面劃分,如今改爲立體劃分,劃分完以後這些數據能夠進行變換、預測、處理。和傳統編碼也能夠作一個很好的結合,目前這塊都是處於比較初步的階段,還須要繼續研究。
以上是點雲和光場與傳統的編碼框架之間的結合。還有一部分是關於光場編碼和點雲編碼,光場編碼處理也能夠用點雲的編碼進行編碼框架表示。基本思想是小凸透鏡成像,從每一個角度情趣看這個圖像,就能夠當作一個球的圖像。把球的圖像進行分解,有一些係數,係數相似於點雲的屬性係數。
關於傳輸,編碼和傳輸都有很大的影響。傳輸有些是咱們比較熟悉,好比 HLS、DASH。後端基於 Tile,把內容劃分紅 Tile,根據帶寬狀況,選擇傳輸相應質量的內容。這個工做對於全景視頻傳輸頗有用處,由於全景視頻某些時候只是看某些角度,不是看整個內容,因此能夠基於 Tile 的傳輸下降整個傳輸的工做量,還能提高圖像的質量。
視點依賴的流媒體傳輸就是指全景傳輸。那麼,咱們就能夠利用神經網絡,提早預測人看哪塊內容,提早把信號內容發送過去以得到更好的體驗質量。能夠基於觀者本人,也能夠基於其餘觀衆的注意來預測。
神經網絡智能不止是在編碼,在傳輸上也有不少用處。再看點雲的傳輸,也是同樣的,點雲數量很大,能夠考神經網絡來幫忙,好比點雲傳輸劃分紅三維的Tile,你看哪塊我給你傳哪塊,來下降傳輸工做量。
新媒體編碼時代:新應用
新應用,有線上抓娃娃,連抓娃娃這種應用均可以搞這種火,我相信新媒體應用能夠搞得更火。
還有超高清,目前看到的有 4K、8K,也有人問咱們需不須要 8K。我在八年前第一次看見 8K 的時就不曾懷疑過,必定有人須要。別說 8K,16K、24K 也有其必要性。對於全景視頻來說,咱們仍是須要更高的質量、更好的傳輸支持纔會有更好的節目、更好的體驗。
5G 與 VR,對於全景傳輸、動態點雲的傳輸均可以提供更好的支持。
智能媒體的製做,紐約大學的研究人員 Ross Goodwin 訓練了一個神經網絡,給它輸入幾部電影它本身就能夠寫出劇原本,而後 9 分鐘的電影就排出來了。也許將來咱們須要只明星的臉,不須要明星來演。
最後總結一下,The best is yet to come,最好的 TA 會來臨。咱們要作的事情就是擁抱新技術,攜手新媒體,研發新應用,開創新時代,個人報告就是這些,謝謝你們。
訪問「聲網 Agora 微信公衆號」觀看演講視頻回顧,獲取更多 RTC