從電信網到互聯網,從運營商客戶到行業客戶。華爲實時音視頻團隊一直以來,都用最爲極致的技術與體驗服務用戶。基於互聯網的視頻通話是華爲向業界推出最新的實時通訊雲服務產品,產品中有哪些獨到的方案與技術?重點關注哪些行業?同時做爲運營商出身的華爲,在互聯網實時音視頻與傳統話音關係是什麼?來自華爲雲核心網產品線的高級架構師左俊在LiveVideoStackCon 2019深圳站對這些問題做出瞭解答。
文 / 左俊算法
整理 / LiveVideoStack安全
你們好,我是華爲高級架構師左俊。今天我將與你們分享華爲在通訊雲服務方面的技術探索與實踐。做爲負責此服務的架構師,我會先爲你們介紹華爲雲的通訊雲服務是如何激活商業夥伴的市場潛力。網絡
華爲通訊雲來自華爲歷史最悠久的雲核心網話音團隊,是全球領先的實時音視頻通訊基礎設施設備與解決方案提供商。咱們從運營商業務出發,30年來持續專一於固移實時音視頻、增值業務與VoLTE/Vo5G的技術研發與支持。架構
咱們整個團隊將面向運營商的服務做爲第一步,從最先於1993年成功自研華爲公司史上具備里程碑意義的C&C08交換機,到2005年將IMS推向市場並已得到300+商用合同,佔全球運營商話市場的35%,排名第一;再到2017年以VoLTE/Vo5G開啓話音/視頻徹底承載IP的時代,並幫助中移動建設全球最大的VoLTE網絡……30年潛心深耕實時通訊領域,爲用戶奉獻最佳音視頻體驗是咱們矢志不渝的目標與追求。市場的快速演進,對客戶對技術與商業提出了更新的訴求。爲此,2018年開始咱們嘗試開發通訊雲服務,旨在與行業分享咱們在運營方面的經驗,經過實時通訊服務爲行業應用賦能。運維
在運營商領域,咱們有頗爲豐富的建樹。例如中國移動的VoLTE服務有80%以上承載在華爲的設備之上,而且咱們也打通了全球首次Vo5G通話;除此以外,咱們也負責沙特Haji活動的通訊保障——做爲全球用戶最爲密集的公共活動,Haji可帶來20倍於平常話務量的通訊需求與100倍於平常終端聯接量的接入需求,其對整個核心網的流控以及可靠性來講無疑是巨大的挑戰。而華爲從2006年開始就做爲Haji活動提供通訊獨家技術支持與服務保障,一改以前,當地運營商年年斷網,服務宕機的囧境。咱們但願將華爲在運營商領域深厚的經驗積累逐步運用在雲服務的建設運營當中。ide
咱們的願景實際上就是將華爲在運營商領域多年耕耘而來的經驗積累與技術成果運用在雲服務之上,爲咱們的行業合做夥伴拓展基於雲的業務的無限可能。咱們但願將多年在流控、可靠性等方面積累下來的技術成果帶給客戶,與此同時也把運營商的一些設備以API的形式開放給咱們的企業級客戶。與客戶一塊兒打造最佳體驗的實時音視頻聯接,使能運營商和行業應用。性能
華爲總體是以運營商起家,從2010開始在雲服務領域逐步發力。2018咱們推出視頻通話服務並將這一能力開放給廣大客戶。學習
那麼過去一年咱們作了什麼?從一開始咱們是怎樣去思考的?縱觀通訊服務,RTC技術與行業趨勢正不斷變化,而視頻通話行業尤其明顯,各種型智能終端接入極大地擴展了市場的空間。從技術維度來講,5G網絡接入開啓了全新發展契機,而包括AV一、VVC、EVC、AVS3等在內的編解碼方案百家爭鳴競爭激烈;隨着並行計算的不斷興起,智能計算的權重也愈來愈大。測試
從行業維度來看,在線教育和互動連麥早已成爲你們踊躍探索的重點,而今天我將重點聚焦華爲通訊雲服務在智能終端通訊領域的探索。優化
從2018年可進行語音通話的華爲音箱到2019年初支持視頻通話的華爲兒童手錶,再到2019年中發佈的華爲智慧屏以及如今的華爲手機與暢連通話,華爲專一於將實時音視頻逐漸融入各種智能硬件,併爲消費者提供隨時隨地順暢溝通的服務體驗。
在開始時咱們思考了RTC實時音視頻所面臨的挑戰,首先須要考慮的是海量終端接入,今年咱們提出年末系統容量須達到2億,將來三年要達到20億並覆蓋全球;除此以外,各類類型終端可接入,統一帳號體系下的各種多終端實現互通;咱們還但願系統實際運行可靠性不低於99.9999%,同時以數據爲鏡,洞悉設備運行狀態知曉運行細節並及時糾正錯誤從而優化用戶體驗。
從質量保證的角度考慮,首先咱們須要清晰意識到現實的網絡情況,並思考如何在有限的帶寬下爲用戶提供高質量視頻通話服務,同時還要使功耗、清晰度、碼率和時延四者平衡且協同。
從網絡優化的角度考慮,咱們認爲網絡波動是一個正常現象,而緩解網絡波動須要對現有的組件進行改造,從而保證用戶以最優方案接入服務。
最後一樣也是華爲最爲擅長的考慮角度就是互聯互通,也就是打破數據與服務孤島,實現全鏈接與全業務互聯。
2.1 海量終端接入
咱們在構建系統時考慮以上四個方面,而可靠性和大容量是咱們一開始就重點考慮的,由於不可靠在網絡當中是一種常態,可能出現包括光纖挖斷、業務浪涌、突發丟包、防火牆攔截、DNS故障等在內的多種突發情況。應對突發危機的有效措施是快速部署邊緣節點並自動選擇最佳節點以處理業務或媒體,這對於整個雲服務來講相當重要。這裏咱們須要考慮的是如何實現快速部署並保證系統能夠進行水平擴展。
咱們給出的實現業務高可靠的設計理念是「E2E多層次多路徑」。首先E2E化整爲零,將對服務的拆解合理化並保證每一項服務都是可去水平擴展,接入模塊可有效進行負荷分擔以及最優路徑接入。對於關鍵節點,咱們在設計時也是考慮了對於Region級別的容災;而對於特別關鍵節點與核心節點,咱們會考慮跨網或跨雲服務商的部署,從而使整個雲服務作到全負荷分擔且任意節點可用。
以數據爲鏡,實際上就是數據驅動下的實時監測與問題快速識別。傳統運營商在設計系統時因爲各個模塊間彼此分離,造成數據孤島,在不少狀況下獲取不到全部數據,這對運營商來講是個很大的問題。咱們在設計這部分時採用了傳統OTT,經過端測與SDK上報數據,每通話平均上傳2000+的指標,系統可在5分鐘內定位問題,85%的問題,可由智能運維繫統AI問題庫的方案,自行修復,自行解決。
安全與隱私一樣是值得關注的重點。從一架構開始就嚴格遵循GDPR(《通用數據保護條例》General Data Protection Regulation,簡稱GDPR)的要求,對全部數據進行匿名化等處理。上圖右側圖線展現了感知的整個過程,其中藍色豎線表明發生了一次網絡震盪。在震盪的過程當中,網絡丟包、U-VMOS統計、幀率等指標異動會在第一時間被偵測到並體現出來。固然,這種偵測是基於用戶級別去作的。
在設計之初咱們就意識到,面對海量用戶終端的安全隱私問題,僅僅從技術上實現安全是遠遠不夠的,而應當確保整個開發過程與解決方案的安全和可信。華爲爲此作出了許多努力,從開始的威脅建模到最後的安全驗收測試與交付維護,包括其中的滲透測試等等。從開發人員的可信到發佈過程的可信,二進制編碼也可作到溯源……華爲將可信植根於平常流程,實現技術與過程融合可信,極大提高了整個平臺的隱私安全水平。
上圖右側展現的是咱們所作的一個安全解決方案。安全認證確保只有經過鑑權的用戶才能接入,而視頻通話雲服務不會保存用戶通話隱私;媒體端到端的加密有效確保了通訊安全,客戶可使用自已信任的存儲資源,來存儲媒體,讓客戶放心,安心的使用業務;
2.2 質量保證
關於質量保證,經過分析發如今用戶尤爲是中國典型寬帶用戶的使用過程當中,接入網絡上行帶寬受限,普通家庭帶寬留給通訊的上行帶寬僅1Mbps,嚴重限制了家庭場景的實時視頻通話的體驗。若想達成一個有競爭力的解決方案,咱們必須將720P與1080P下的總體碼率降到1Mbps如下。
爲實現該效果,咱們使用華爲自研的HW265技術(HW265是華爲多媒實驗室基於H.265進行全方位優化的編碼技術,兼容H.265但現網綜合表現遠優於H.265),做爲編解碼器——去年和今年的MSU世界視頻編碼器大賽,華爲HW265編碼器蟬聯冠軍。因此從目前來看,HW265可以把720P下的碼率降到1Mbps如下。除了正常的編解碼以外,一些後續我會提到的先後處理也十分必要,可進一步下降碼率,對於在帶寬受限網絡波動的場景下保證視頻的有效傳輸相當重要。
也許有人會對H.265的兼容性有必定疑慮,這裏咱們使用了諸如非對稱編解碼等小技巧以實現端的普遍適應性與系統可控。
除了編解碼層面的改進,整個先後處理過程還能被進一步優化。這裏咱們主要進行了如下實踐:在發送端,咱們基於ROI的動態檢測來檢測人的視覺關注區域併爲同一畫面分配不一樣碼率;在接收端則是藉助超分辨率,尤爲是在低碼率的場景下,例如將360P的視頻畫面投放到大屏電視上。此時若是不使用超分辨率那麼電視所呈現的畫面將會很是模糊,用戶體驗極差。因此咱們在接收端使用超分辨率的特性實施對畫面質量的躍升觀衆主觀感覺能達到720P的效果。
實現超分辨率時咱們也用了一些小技巧,例如在Y通道上咱們運用超分辨率模型而在U、V通道上咱們使用雙三次線性插值從而控制算力與複雜度,而其對總體清晰度的提高實際上依然能帶來一個比較顯著的效果。目前在咱們內部的主觀雙盲測試中,ROI和超分辨率的MOS分可接近4。
網絡優化的內容很是細碎,整個RTC通訊通常分爲如下九個環節:採集、前處理、編碼、打包、網絡傳輸、解包、解碼、後處理與顯示。實際上這些步驟還能進一步拆解細化,例如「打包」包括網絡適應性等,僅憑藉一種黃金方式來下降整個端到端的時延顯然是不現實的。一個成功的低延時解決方案,其關鍵在於日積跬步,從細節着手優化。
首先在採集顯視階段,時延主要取決於硬件性能;而先後處理階段,咱們主要經過插件化架構與按照不一樣業務場景動態按需加載最小插件集來下降先後處理時延。;在沒必要要的場景,咱們就不使用插件,由於某些插件會增長時延。
對於編解碼階段,咱們根據芯片能力自適應選擇軟、硬編解碼從而下降編解碼時延開銷,由於硬件編解碼的處理速度會更快一些;對於弱網場景,準確地預測帶寬相當重要。由於若是你使用FEC和ARQ就會極大提高時延,對於整個RTC的通訊來講是比較致命的。咱們藉助自研網絡適應性強化學習模型,實時準確預測網絡帶寬;同時做爲編解碼的輸入,下降弱網條件下JitBuff引入時延。
對於網絡傳輸而言,轉發模型必選,這就意味着MCU不可用,MCU必須轉變爲WebRTC。咱們藉助SFU純轉發模型下降網路節點處理時延;,並基於全網QoS信息智能選擇最優傳輸路徑。
在網絡傳輸的過程當中咱們使用智能優化算法,藉助強化學習傳輸模型可有效提高網絡帶寬精準預估。上圖左側表示傳統帶寬預測算法,主要有如下弊端:模型固定、基於丟包與時延進行相應的響應以及參數設置依賴經驗值。所存在的問題就是實際帶寬和測試帶寬之間的比例,能夠看到其丟包率特別高且收斂時長較長。咱們與華爲公司內部專門負責網絡算法的團隊一塊兒研究,針對網絡上各類各樣的模型進行了模擬、訓練並強化學習,從而有效縮短收斂時間與下降丟包率。採用強化學習模型後,帶寬預測準確度提高20%,帶寬調節收斂時間縮短1倍,帶寬降低期間丟包率最大從60%降低到10%之內。這些數據可反映出強化學習模型的出色效果。
網絡優化的最後一個部分實際上就是實時媒體精確導航。對於時變路由來講,經過一個集中化大腦控制下面全部節點以及數據流向,例如從Pop1到Pop4可能通過Pop3來實現優化。每30秒作一次從新路由的計算,基本作到每一統統話都會有一個自由路徑,在通訊的過程當中也能作到相應的切換而不丟包。對於最優接入來講,首先將地理位置、用戶歷史QoS以及歷史位置信息做爲綜合判斷的依據,並將這些數據統一上報至中心節點,中心節點爲用戶判斷其相應位置。固然,這裏也有許多將來亟待優化的關鍵點,如質優終端直連與POP點間的突發丟包——目前咱們也觀察到,在總體丟包過程當中,突發丟包會在15秒之內形成90%以上的丟包,這其實對於媒體的精確導航來講沒法實現動態切換,因此爲解決這種突發丟包咱們將來還有許多工做要去作。
互聯互通是華爲很是擅長的領域,實際上就是創建一個統一的互聯互通大網,其中涉及到運營商與所創建的RTC網絡之間的互通以及PSTN的轉換等。運營商PSTN和私有帳號體系之間如何創建轉換關係,每個解決方案都有所不一樣,這裏最重要的就是創建資源號碼的映射關係。
接下來我將與你們分享我對於RTC的將來的一些思考。
最近5G技術成爲你們熱烈討論的重點,你們也熱切但願5G可以給整個RTC產業以及整個直播行業帶來革新,可實際上這並不是你們理想的這麼完美。
5G系裏面的許多方案實際上也是分階段推動的,包括SA和NSA階段的部署。現階段在國內以及海外部署的全部方案都處於NSA階段。NSA階段實際上就是把無線側的空口技術徹底換成5G接入,但實際上核心網側以及內部網絡鏈接側都沒有發生變化。對於整個網絡來講,這並不能徹底作到5G宣稱的低延時大帶寬。除此以外,如上圖中三大業務場景指標需求對比所展示的那樣,5G下又細分了三個場景:eMBB、mMTC和uRLLC。其中eMBB就是咱們所說的大帶寬,大多數消費者所使用的互聯網訪問就是基於這種場景,此場景在運營商端主要依賴於普遍部署而不是熱點部署;mMTC和uRLLC其實是基於熱點部署。你們一聽到5G就說5G會給咱們帶來低時延和大帶寬,而eMBB相對於4G雖能下降一些時延但遠稱不上是顯著下降,若想顯著下降時延則有賴於uRLLC,可uRLLC又是基於熱點部署,只能被用於一些特定企業或專業場景。因此你們須要清晰地意識到RTC與5G的新時代,挑戰與機遇並存。
以前咱們提到NSA階段下部署的5G實際上只進行了無線側的覆蓋與提高。接入側的時延和遠距離傳輸所形成的時延問題其實並無被徹底解決。咱們期待運營商可以在將來2~3年內解決該命題。
對於RTC來講,挑戰依舊嚴峻。當人們討論5G時永遠不會繞過的話題就是5G+VR/AR,而實際上人們提到的只是空口和傳輸時延的下降。若是串聯起端到端的整個傳輸與處理鏈路就會發現,編解碼所佔時間佔到整個端到端時延的50%以上,從編解碼層面入手下降時延相當重要。
5G時代,大算力場景層出不窮,在此場景下手機性能顯然沒法知足大算力需求,因此其網絡模型也會相應發生變化。有時鑑於手機能耗與電源管理的須要,一些正常的計算可能會被傳輸至雲端邊緣來處理,這樣就造成了一個邊緣與端側聯動的關係。這就會形成5G的邊緣側流量顯著增大,隨之咱們的整個設計模型也會發生必定變化,這也是將來咱們須要從架構和解決方案角度考慮的事情。
看過《星球大戰》的同窗必定不會對裏面的全息投影感到陌生,能夠說全息投影是咱們追求的終極理想,但實際上這項技術距離顯示還很是遙遠。也許有人會說在一些舞臺表演上已經看見過相似全息投影的應用,實際上這並不是真正的全息投影,而是一種被稱爲「佩珀爾幻象」的視覺效果。其有本身的限制條件,如四周的黑幕、使用場景很是受限等。若想實現理想中的所謂全息通訊,顯示介質和輔助自由視角通行交互相當重要。咱們不能單純地在採集端僅收集一段圖像並傳遞到觀看者端,而應該傳遞一個模型。例如採集一張面孔,正常圖像由邊緣側進行計算以後會驅動網絡上的模型,驅動所造成的模型會被傳輸至對端,此時觀看者視角決定對端的形象呈現,且存在兩種思路:
專用終端+直接模型矢量傳遞:深度攝像頭、模型矢量傳遞、模型渲染。主要在端實現:計算、功耗問題要解決。
普通終端/眼鏡視頻採集+網絡側分析轉換:模型匹配、視頻->模型驅動、位姿數據驅動觀看視角、FoV。對媒體訴求:超低時延轉換+傳遞+邊緣計算
這兩種方案誰更甚一籌,仍是個未知數。
對於在線教育場景來講,可達性、時延、卡頓率、穩定性與易用性是決定實時視頻業務體驗成敗的關鍵指標。
在線直播中的互動性、適應性與易用性相當重要。視頻通話端到端時延<300ms才能供主播與觀衆間進行互動。而從480P到1080P的多種分辨率也須要適配多種終端;極端網絡自適應,使得用戶在複雜移動網絡環境中仍可以享受穩定可靠的通話體驗;用戶友好——不挑網絡,體驗穩定可靠與開發友好——高效集成,快速獲取能力一樣是值得關注的方面
知足兩千萬以上規模的智能硬件接入,可靠的技術保障不可或缺。
視頻通話作爲互聯網上通訊的基礎通訊能力,將會像空氣同樣, 時刻圍繞在你身邊,與各類線上業務結合,幫助商業合做夥伴線上服務的方式的創新、服務質量的躍遷和服務體驗的提高。實現更多服務觸點,知足用戶全場景需求,挖掘潛在商業機會。
這是一個很大的市場,華爲雲.視頻通話,有技術、有服務、有體驗。但願與合做夥伴一道顛覆線上服務體驗,幫助其實現商業價值規模裂變。