在線公開課 | 5G時代的視頻雲服務關鍵技術與實踐

5G時代來臨在即,視頻技術將會如何發展呢?基於視頻雲服務的技術開發又有怎樣的變化呢?爲此,京東雲視頻雲產品研發部高級總監魏偉爲你們作出了詳細解讀。html

魏偉擁有10多年視頻行業研發經驗,前後從事於AVS標準制定、廣電音視頻系統、互聯網視頻平臺、視頻雲服務平臺的架構設計和研發工做,具備豐富的廣電、互聯網視頻、視頻雲等行業的研發和管理經驗。讓咱們一塊兒看一看他對於5G時代下視頻技術的理解。算法

在5G時代到來以前,移動通訊技術已經經歷了1G、2G、3G和4G,視頻產業在4G時代實現了日新月異,如短視頻、直播、長視頻、視頻會議等形式的出現,使得人與人之間的溝通和交流方式從傳統的語音、文字、圖片等模式快速升級到視頻。相應的,4G時代全網視頻流量已佔到全網數據流量約70%,而在5G時代,視頻流量佔的比例還會更高。安全

在5G時代,如VR、3D超高清實現等技術的大規模應用,人與人之間的聯繫被溝通的更近。由於視頻比圖片和聲音有更強的表達能力,也符合信息傳播的將來演進方向。網絡

5G時代的視頻雲服務關鍵技術與實踐
https://v.qq.com/x/page/x0896or1r6x.html架構

01通訊和視頻的基礎原理併發

數字視頻時代的起點在80年代,那時視頻標準化從H.261/MPEG-1標準開始,應用在如光盤、VCD等形式,分辨率只在352×288;到1993年,MPEG-2標準推出,分辨率達到720×576的標清時代,主要載體是DVD,也開始出現高清藍光,是均以離線傳播爲主的時代;而到2003年,隨着H.264標準推出,數字視頻進入了互聯網時代,促生了點播、直播、短視頻等應用形態,H.264延續至今依然是主力的視頻標準;4K視頻開始崛起,H.265標準在2013年應運而生。每一代視頻壓縮標準,壓縮效率均提高了一倍,編碼複雜度也提高了不少。框架

當前咱們所處的階段視頻是以H.264爲主,4K高清視頻以H.265爲主的時代。視頻技術的變化,每10年更新一代標準,壓縮效率也能提高1倍左右。視頻的標準除了ITU制定的主力標準之外,自主知識產權的國產AVS標準也快速發展起來,還有一些廠商制定的好比VP標準、RM標準以及如今免費開源的AV1標準。而面向將來的VVC新一代標準,若是順利這一標準將會在2020年左右推出,其視頻壓縮效率將會比H.265再增長一倍,運算複雜度及運算量都將增長不少。運維

那麼科普一下,視頻是如何壓縮的呢?視頻是由一幅幅單獨的畫面(稱爲幀frame)序列組成,每秒約25幀。每幀畫面之間的差別很小,只須要對視頻幀之間的差別進行壓縮編碼,即信息熵,相鄰的畫面之間、相鄰像素之間的的類似冗餘須要去除掉,便可獲得一個較高的壓縮比。但對於視頻技術來講,還能夠利用人眼視覺模型(HVS),舉例而言,1080P的視頻,每秒假設有25幀,彩色視頻有RGB三個份量,視頻每秒的數據量爲192010803258=1244.16Mb/s,每秒就超過1G多數據,利用信息論去除先後相鄰幀之間的時間冗餘,再去除相鄰像素間的空間冗餘,再去除信元的統計冗餘,再結合HVS作有損壓縮,在不影響人眼主觀感覺的狀況下,視頻壓縮能夠達到300到500倍。優化

再看一下整個視頻編碼過程,涉及到的一些基本概念,上圖就是一個視頻壓縮的經典技術框架。從最先的一代視頻標準H.261/MPEG-1開始,到如今的H.265/HEVC乃至於面向將來的VVC的標準,其系統結構都是採用基於塊的混合編碼系統,涵蓋了時間冗餘去除,空間冗餘去除,統計冗餘去除、有損壓縮等造成混合編碼的結構。編碼

每一代的視頻標準都有一些共性的開發問題。好比幀結構和場結構,在幀結構中,一幅畫面就是一幀;在場結構中,一幅畫面是由頂場和底場兩場組成。GOP(Group of pictures)圖像組,須要把視頻序列拆成N個圖像組,每個圖像組裏麪包括了Intra、帶前向預測的Inter,以及帶雙向預測的Bi-directional。Intra解決視頻的隨機接入問題,在任何一個Intra幀均可以開始接收和解碼圖像,Intra預測目前也已經很是成熟,從H264的9個方向到H265的35個的預測方向,而在將來的H.266時代預測方向會達到60多個。

第二個就是Motion Estimation即運動估計,用來消除相鄰幀之間的時間冗餘。由於相鄰幀間的圖像會有一些輕微的運動變化,運動估計技術能把這些運動給「估計」出來;Motion Compensation運動補償是運動估計相反的過程,在解碼過程當中實現,解碼時MC重建出當前畫面,避免傳輸整幀畫面;視頻編碼有Coding Mode Selection概念,多種的編碼模式根據不一樣畫面內容進行選擇,有多種算法進行快速實現。

再者就是Transform變換技術,進行正交變換把視頻的亮度域變成頻率域,將運動估計處理後的灰度域的像素點變成頻率域表示,把高低頻內容區分出來,方便去除人眼不敏感的高頻信號,去除空間冗餘信息。還有縮放和量化(Scaling & Quantization)技術,在作有損壓縮的過程當中,經過量化過程對高低頻信號選擇合適的量化階把不敏感的內容去掉,量化和碼率控制技術密切相關,經過調整量化參數,來實現每一幀視頻的碼率控制。碼率控制又分爲CBR和VBR,CBR是固定碼率,即每一秒滑動窗的碼率都是均勻的,主要是用在一些固定信道傳輸領域好比衛星通訊,碼率穩定。VBR是可變碼率控制,用在互聯網傳輸方面,控制總體平均碼率,但會根據視頻每一段的複雜度來分配合適的碼率,在複雜區域高碼率、簡單區域低碼率來實現總體質量的均勻和總體平均碼率的均勻。

02視頻體驗的提高與評判

全部人都在追求更好的視頻體驗,那麼視頻體驗究竟指的是什麼呢?哪些辦法能讓用戶體驗更好呢?

  • 像素更多,視頻的發展從標清、高清、超清到4K、8K還有之後的16K,像素愈來愈多,用戶體驗愈來愈好;

  • 像素更快,之前的視頻一秒鐘只有15幀,如今逐漸發展變成25幀、30幀、60幀、120幀,將來還會有240幀,360幀,更快意味着更溫馨;

  • 更好的像素。以往,每個像素是8個比特,之後像素質量會上升到10比特、12比特、16比特;

  • 色域更寬廣,色彩會更加逼真;

  • 高保真的音頻,音頻壓縮的難度比視頻壓縮更大,耳朵的靈敏程度遠比眼睛要高。視頻能夠達到幾百倍的壓縮,音頻的壓縮也就幾十倍,到100倍就已是很是很是困難了;近年開始有全景聲的概念提出,對於體驗提高頗有幫助;

  • 更低的碼率,雖然數據量愈來愈大,須要更高壓縮實現更低碼率來解決視頻卡頓和傳輸成本問題;

  • 更快速的起播,用戶打開視頻的速度要更快。

對視頻質量的評價也有標準和方法,現在比較常見的方法有四種:

  • Rate-Distortion (PSNR)峯值信噪比,根據RD值繪製曲線,曲線越高,壓縮效率越高、質量越好;

  • SSIM,根據視頻結構性、類似性進行評價,目前使用愈來愈普遍;

  • VMAF,把不一樣的視頻、不一樣的分辨率,放在相同維度上以統一的標準來衡量;

  • MOS人眼主觀評價,這也是最權威的評價方法,也就是眼睛看着是否舒服。MOS評分雖然是主觀評價方法,但也是最客觀的視頻質量評價方式。

不論直播、點播仍是廣播技術,視頻服務均可以分紅四個層面:最底層是編碼最內核的Codec層,其上層是Container封裝層,再上是Stream碼流層,最上層即是服務層。涉及到大量的行業標準,其中大多數標準是由ITU制定的,好比H.26四、H.265標準,還有封裝層的MP四、TS等標準。

不少標準都有開源代碼實現可參考,好比ffmpeg、VLC等服務框架,就是比較全面的開源實現;X26四、X265對應的就是H.26四、H.265兩個標準的開源實現;Container層也有mp4box、MKV等優秀的開源封裝格式;在服務層,有Nginx、SRS等開源實現,在每一層都有對應的開源實現。音視頻領域雖然說不大,可是技術域從底層到上層種類繁多、技術棧從彙編到go語言很是長,此處列出的僅僅是其中小部分,還有大量的開源實現來支持視頻技術。

03視頻技術到視頻服務的處理

從視頻技術變成視頻服務,其間還有很長的一段路,除了視頻技術自己,還須要進行服務平臺搭建的工做,視頻很是看重端到端的完整流程。在一場比賽直播中,現場攝像機拍攝、通過網絡傳輸和雲端存儲、雲端編轉碼處理、經由平臺層進行內容發佈和媒資管理,還有網絡資源調度、節點管理、線路規劃、線路節點調優等CDN工做,還可能涉及百萬級的併發均衡、P2P內容分發傳輸,最後到終端播放。只有從採集到終端播放造成完整的鏈條,才能保證視頻內容的流暢高質量地播出。

對於視頻服務提供商而言,想要提高端到端視頻服務的用戶體驗,就須要在播放、平臺、產品等多個方面提高。播放體驗包括了秒起播、低卡頓、高清晰、高質量、低延時、脣音同步;平臺體驗包括了高效率、大併發、穩定可靠、可管可控、安全;產品體驗包括了雲化、標準化、服務化、可量化、可視化;音頻體驗包括了響度、音質等。

具體到京東雲來看,京東雲在視頻BD-PSNR衡量標準上,不一樣分辨率對比其餘廠商能再低20%到25%的碼率,也就意味着可以幫助內容服務提供商下降25%的帶寬費用,省下25%的成本。

這些數字背後隱藏着那些技術呢?目前,開發者能夠基於京東雲特有的視頻編碼能力,在保持處理速度不下降的狀況下可以把視頻壓縮到相比於其餘廠商更低15%到20%的碼率上,而且提供極速處理模式,提供優質畫面的同時能夠爲客戶下降帶寬,同時處理成本不增長。京東雲的對象存儲的技術,對數據的安全性進一步提高,實現9個9的安全性,對存儲的數據進行訪問加速,並對視頻方面進行定製優化。京東雲CDN也進行了系統化的提高,包括資源建設,技術優化、運維監控、調度調優等,京東雲提供了一張覆蓋全國的CDN網絡,提供超過20TB容量的CDN服務,此外再加上客戶端的處理技術,接入京東雲的SDK後能在短期實現功能豐富的直播或短視頻應用。

045G時代VR視頻的展望

5G到來之後,延時更低、帶寬更大,比4G多了更多可能性,好比超高清視頻、5G+8K的視頻傳輸和實現,更多包括視頻監控和AR/VR技術將更爲受益;可明確預見的是超高清視頻甚至超過8K的視頻處理都將很快變成可能。

隨着帶寬的擴充、擴容,超高清視頻是必定會實現,VR也會成爲新的焦點。那麼,5G來了是否是VR一下又能從新爆發呢?能夠抱着謹慎樂觀的態度。由於VR技術和相關產業並非一個新興產業,而是一個完整的產業鏈,很難像新技術同樣瞬間火爆。技術圈對於VR視頻技術的探索比5G還要早,在1968年就已經在進行VR技術的嘗試了,全部人都但願能有更近距離、無障礙的交流溝通體驗,VR可以將人帶到實際的場景中,得到沉浸式的體驗。

image

在5G時代VR的發展到底會怎樣?在2016 VR市場很是火爆,Google、Facebook相繼進入VR市場,硬件廠商如三星、sony、英偉達,視頻公司YouTube,內容方面騰訊、愛奇藝、樂視、暴風等逐步加入;可是到了2017年和2018年,你們又變得很是理性了。背後的緣由分析一下不可貴出這一結論,阻礙VR技術發展的並不僅是網絡,而是整個產業鏈。

VR的採集端是由多個無死角採集具備重疊區域的視頻畫面拼接而成的,他會把360度的視頻拍攝下來;拼接的過程須要解決特徵點匹配、多鏡頭同步、時間同步等問題,須要進行多鏡頭曝光校訂、畫面融合等操做,再把每一個平面變成球面的畫面還原出來才能完成。VR視頻的編碼播放與前面所講的視頻播放技術、視頻處理技術大致同樣,從技術架構上來講,採集、拼接、編碼傳輸這都沒有問題,但真正很差解決是在播放設備上,由於VR是戴着頭盔來體驗VR內容,蒙在眼前的屏幕只有幾釐米距離的時候,人是很容易發生眩暈的,如何來解決眩暈感是VR普及的最關鍵因素。若是要在VR頭盔上沒有眩暈感,基本上分辨率須要達到15K左右,比如今8K還要再高四倍的像素,而在顯示速度上,每秒120幀是必須條件,這樣纔可能避免眩暈感。

在顯示屏方面,當年發佈iPhone 4時提出了視網膜屏幕的概念,是指當屏幕距離人眼25-30釐米時,分辨率只要達到300ppi(每英寸300個像素點)以上,人的視網膜就沒法分辨出像素點了。而從iPhone 4到iPhone XS近十年都過去了,屏幕像素只是從300PPI發展成如今的450PPI,發展速度相比晶體管很是緩慢。由於顯示屏、液晶屏的發展與摩爾定律無關,速度遠遠低於數據處理能力的發展速度。若是VR想要達到不眩暈的效果,就得讓15K分辨率和120幀幀率顯示效果放進頭盔裏,屏幕須要達到2560PPI,不管是LCD仍是OLED都很難達到。固然現也能夠期待像microLCD等更高質量顯示技術的成熟,來幫助VR產業進一步落地,但這顯然都和5G時代關聯並不大。5G的低延遲、大帶寬確定會提高數據傳輸能力,促進VR的體驗提高和發展,但VR的普及還須要整個產業鏈的提高,僅有5G還不足夠。



歡迎點擊「連接」瞭解更多精彩內容

閱讀原文

相關文章
相關標籤/搜索