2024年視頻在移動端流量佔比將達74%或更高,將極大促進多媒體技術發展

導語 | 2019年9月7日,騰訊技術開放日·5G多媒體專場在騰訊濱海大廈完美落幕。來自騰訊多媒體實驗室的專家們給你們帶來了關於5G技術和標準的精彩分享,揭開了許多關於5G的謎團。本文重點講解5G下沉浸式媒體的重要技術:3D&點雲。算法

做者簡介

封薇薇,騰訊多媒體專家工程師,2018年加入騰訊美國,擔任騰訊沉浸式媒體專家工程師以及項目負責人,以前曾在美國大型社交媒體,金融公司擔任多媒體系統工程師,成功交付過多項多媒體關鍵技術項目,擁有豐富ToB, ToC行業經驗。網絡

  1. 5G碰見多媒體

首先,咱們分析下多媒體所處的大背景。以下圖所示,全部的數據事實上都指向大部分流量尤爲是手機終端流量,都是被視頻所佔據的。2018年大概60%數據是在給視頻,在5G到來的將來,這個狀況不會下降反而會更加加重。據預測,到2024年,這個數據有可能達到74%或者更高。緣由是由於咱們人類對於信息的渴望是在不斷增長的。縱觀歷史,從過去紙質書籍到廣播媒體、電視媒體到如今的終端,信息量愈來愈大,但這個慾望歷來沒有被知足,這就觸發了咱們如今對多媒體技術的不斷研發。5G時代到來,對技術的探索不是終止,反而會是更大的促進,而沉浸式媒體技術也勢必會獲得更好多發展。架構

2. 騰訊多媒體實驗室參與標準與產業系統

接下來我跟你們討論一下多媒體系統。以前多媒體是一個比較複雜的系統,這張圖上所介紹的大概能夠涵蓋直播、點播、實時傳輸這幾種傳播特性。騰訊多媒體實驗室參與的標註與產業系統,目前覆蓋了行業中多個標準,大致分四類:媒體標準、網絡標準、系統標準以及其餘行業標準框架

對於工程來講,咱們會具體把標準落體爲真實的產品,應用到每個技術模塊上。優化

3. 沉浸式媒體簡介

對於沉浸式媒體,從模塊上來看包括從採集、壓縮處理、傳輸,以及渲染和交互。對於三維場景,沉浸式媒體更加接近於真實對世界的理解或者感覺,更方便或者更容易讓你們和三維場景進行交互。這對咱們沉浸式用戶體驗是很是好的展現或者應用。編碼

下圖是咱們爲兒童教育作的一些小的展現,主要應用的是裸眼3D和AR技術場景。後文會對3D相關的技術進行闡述。3d

2、沉浸式媒體重要技術:3D

  1. 3D表達

具體怎麼從二維世界到三維世界。一般看到的電視或者視頻,都是經過攝像機拍攝的。它的拍攝方式是將真實世界投影到二維平面上,經過平面再進行壓縮處理。對於3D來講,如何更好的展示三維的世界。能夠假設眼睛是一個攝像頭,看到的世界能夠上下左右旋轉。所以最簡單的實現方式就是把三維世界投影到一個球體上,能夠想象爲一個球體,人是站在中心的,經過旋轉來觀看不一樣角度的場景。cdn

三維的應用場景這樣會給用戶更自由觀看選擇,也所以更加人性化。如何把三維數據進行壓縮傳輸,咱們的想法是利用如今2D壓縮傳輸相對比較成熟的模式來對三維的東西進行壓縮傳輸。所以咱們會運用投影技術,將三維球體投影到二維平面,能夠想象將一個地球儀投影到世界地圖上。這種投影方式通常稱之爲ERP。通過了這樣的投影,將三維球體轉換成二維平面,就能夠用正常的二維視頻技術將它進行壓縮和傳輸。視頻

2.3D信息採集:VR360

具體怎麼採集三維信息呢?拿魚眼作舉例。通常攝像頭都有一個角度,任何一個鏡頭只有必定的視角的限制。假設是魚眼狀況下,視角限制是180度,若是想要360度,須要兩個魚眼鏡頭背靠背再將他們組合回去。具體方式是將魚眼拍攝下來的圖片,將右上角的圖片經過鏡頭的角度投影回ERP,每個都分別擁有一個180度的圖像。對這兩個圖像進行比對,找到了對應部分的類似點,經過計算獲得一個平移和旋轉的矩陣,通過平移和旋轉矩陣的轉化,將這兩個圖片徹底對齊,對齊後再將它們拼接起來。blog

事實上VR360技術是和投影技術息息相關的。通常狀況下都是ERP投影狀況,但事實上能夠看到ERP投影狀況是有必定缺陷的。在兩極狀況下有大量冗餘信息,這些信息是不須要徹底被傳輸的。而實驗室經過對投影方式的變化在保證最終質量的同時有效的節省了25%ERP中的冗餘,使整個系統在端到端的處理傳輸中更加的高效。

3. 媒體系統的實現

(1)全景媒體的應用格式:OMAF

下面具體沉浸式媒體系統是怎麼實現的。

首先講一下傳統多媒體,通常在點播或者直播狀況下,會有容器描述音頻和視頻圖像的存儲形式。由於真實世界裏網絡環境很是不穩定,傳輸前會準備多路不一樣質量的視頻,使在不一樣網絡狀況下用戶能夠隨時無感切換,調整到最適合的狀態。對於全景視頻,咱們仍然但願採用傳統傳輸結構的緣由是能夠複用現有的技術架構來服務新的場景,從而避免架構調整所帶來的成本增長。

OMAF做爲全景視頻媒體格式,除了定義媒體系統框架,針對全景視頻,在視頻容器中也會定義一些新參數,來指示這是否是傳統視頻,採用什麼投影方式,也會有一些用戶輔助信息,好比初始角度、推薦角度等。

(2)全景傳輸:切塊傳輸

雖然有了剛纔的三維全景系統定義,但對於全景傳輸,還有一個很是大的問題。由於咱們如今傳輸的東西是包含3D信息的,它數據量明顯會大於二維,4K,8K的視頻大小在三維上依舊是不夠的。

但事實上雖然系統中傳輸的是總體三維視頻,真實用戶看到的由於只是其中一部分。針對這個狀況,咱們實驗室在工程上採用了HEVC,經過其能夠支持切塊並行處理特性將每一個快單獨包裝成一個獨立的視頻流,這樣用戶在下載時能夠根據可視區域自由選擇下載的部分,能夠大大節省碼率,提升可視部分的清晰度。實驗代表這種解決方案,能夠大概節省50%帶寬。固然這種狀況下對於碼流估計會更加複雜,相關算法也須要進行了一些改良。

3、沉浸式媒體重要技術:點雲

1.什麼是點雲?

剛纔說到的是360視頻,一種對三維世界的描述方式。除了360視頻外,還有其餘對三維世界描述的方式。好比常看到的方法,把三維物體用點和麪表示。另外的方法是能夠用激光雷達或者攝像機矩陣將一個三維物體直接數字化,變成一個點的數據。每個點會包括它的位置x、y、z和其餘信息包括r、g、b和色彩信息y、u、v等。這樣的描述方式咱們稱之爲點雲。靜止的點雲包含千萬級數據,動態點雲每幀能夠有百萬級數據。這種點雲的描述方式有一些特性,點和點之間沒有聯繫,沒有順序。所以能夠根據這樣的特性進行隨意的排序,用來將來壓縮技術的優化。

點雲壓縮分兩種,一種是V-PCC,和360視頻有一些相似的想法,咱們想利用原有的視頻壓縮技術對點雲進行壓縮。另一種是G-PCC,基於幾何的點雲壓縮。

V-PCC也是一個投影的過程,它是將全部三維物體投影到不一樣的平面上,須要的技術是在投影過程當中須要把子塊劃分儘可能減小一些遮擋,子塊須要有一些比較平滑的邊緣,儘可能佔有比較小的空間來造成最終的壓縮圖片。對於G-PCC,它是更獨立的壓縮過程。以前說到傳統視頻視頻會用二叉樹、三叉樹、四叉樹,到G-PCC則是採用八叉樹。舉例兔子,會對兔子不停進行切割,切割到最小方塊,用八叉樹表示位置的編碼。對於它其餘屬性,在獲得八叉樹編碼時,會將屬性根據八叉樹進行叉值預測再計算叉進行編碼。

2.點雲壓縮

這是點雲的壓縮模塊。

左邊是V-PCC模塊,跟以前所看到的通常二維視頻稍微相似一些,但會多一些投影模塊;G-PCC是相對獨立的編解碼方式,會用到八叉樹這些編碼。通過V-PCC或者G-PCC的壓縮,經過V-PCC,假設有10萬點的30幀每秒數據,原始數據沒有通過壓縮,可能會達到360兆。若是進行了V-PCC的壓縮後,會達到1兆。它是一個很是高效的壓縮方式。對於G-PCC來講,一樣10萬點,10幀每秒的狀況下,沒有壓縮的數據假設是110兆,無損壓縮能夠獲得24兆每秒的壓縮結果。

3.點雲技術相關標準

實驗室在點雲技術上實驗室在國際國G-PCC,V-PCC上均擁有多項提案和專利。

而在國內標準上實驗室牽頭成立點雲工做組,推動點雲國家標準。

4.點雲技術的應用

同時經過合做的騰訊自動駕駛團隊,咱們成果將點雲壓縮推廣至現實產品應用,2019天預計的路測採集數據量大概十的十五次方,經過點雲壓縮,存儲量會變爲原來的1/6。

除了剛纔所談到的自動駕駛,點雲和360還有其餘的應用場景,好比如今所看到的自主廣播視點,能夠想象剛剛的點雲,若是是這樣一個場景,會須要大量的點來表示,數據量是很是可觀的,因此咱們會利用360比較適合遠景的性質錄製遠景,近景會採用點雲方式,最終會獲得一個自主視點廣播效果。

4、沉浸式媒體前景展望

沉浸式媒體,是VR這塊數據傳輸量比較大一般面臨着巨大的挑戰,但隨着技術的發展,伴隨着5G時代基礎設施的迭代,這些問題已經獲得了一些質的突破,因此愈來愈多產業已經開始更多的應用了XR技術,包括體育、文旅、娛樂、影視、科教、新聞、商業。

經過以前的數據能夠看到,如今在VR/AR,將會有一個比較快速的上升期,從而爲人類帶來全新的體驗,科技向善助力將來。

相關文章
相關標籤/搜索