淘寶直播再升級!淘系自研GRTN 新一代多媒體傳輸網絡

相信你們對網絡直播已經再也不陌生了。html

2016年被稱爲直播元年,基礎技術逐漸成熟,引出千播大戰。在紅海下,純粹的直播逐漸失去競爭力,很多企業開始走內容垂直化,跟秀場、遊戲、電商、廣電等內容特色深度結合。其中內容垂直化最爲成功的,莫過於電商直播。據一些行業調查報告,2020年中國電商直播市場規模接近萬億元,年增加超過100%,增加勢頭強勁。2020年S1疫情爆發,電商爲病毒隔離貢獻巨大,同時疫情也爲電商直播購物按下了加速鍵。web

電商體系中,多媒體傳輸網絡處於關鍵位置,承載着內容中臺的基座。算法

image.png

電商內容體系架構圖服務器

電商體系中,內容中臺爲主要增加引擎。2020年淘寶雙十一GMV達到4982億,淘寶直播帶寬峯值超過7T,比去年增加超過1倍。直播玩法、用戶體驗、系統穩定性都比去年大幅提高,GRTN(Global Realtime Transport Network)新一代多媒體傳輸網絡爲雙十一的增加保駕護航,整個雙十一期間,系統如絲般順滑。網絡

(淘寶直播專題內容正在更新,歡迎關注【淘系技術】公衆號)

GRTN新一代多媒體傳輸網絡架構

多媒體傳輸網絡,是否是就是CDN?答案固然是否認的,CDN只是傳輸網絡的一部分。多媒體傳輸網絡包括內容生產、編解碼、內容分發、觀看體驗、宏觀控制。GRTN是一套從生產到消費,從功能到管控的完整的系統。架構

image.png

GRTN新一代多媒體傳輸網絡架構運維

內容生產:讓直播更好玩

淘寶直播走到如今已經5個年頭,主播的能力有了很大提升,咱們的權益互動也作了不少創新,今年咱們更注重直播的內容,咱們但願主播在直播賣貨的同時,也能產生不少頗有趣的內容,讓你們買買買的同時,保持好心情。因此咱們重點作了直播遊戲互動玩法,使得直播在賣貨的同時也能更加有趣好玩。編輯器

4444.gif 666.gif 777.gif

內容生產流內互動的系統主要分爲3個部分:功能強大的素材玩法編輯器、靈活通用的腳本編輯器、跨平臺渲染計算引擎。編輯器是內容生產的用戶界面,提供各類素材、玩法的編輯能力。然而,有時簡單的素材和玩法不能知足需求,須要用一套腳原本控制素材和玩法的運行,爲了下降腳本開發難度,腳本必須靈活通用。最後全部的素材、玩法要在流裏面展示出來,必須依靠渲染計算引擎。模塊化

編解碼:成本更低,體驗更好

S265是直播成本極佳的編解碼方案

帶寬是直播運營中最大的成本,根據前瞻網估算算全行業2020年的CDN費用支出將超過300億元,在2025年接近1000億規模(https://bg.qianzhan.com/trends/detail/506/200715-ec767b9b.html),在保證視頻質量的前提降低低帶寬是成本控制中相當重要的一環。工具

相機採集到的視頻數字信號一般是yuv格式,每一個像素點須要1.5個Byte來表示,以720p 25fps爲例,帶寬有263.67Mbps,直播1小時總流量有124.4GB,若有100萬人觀看這場直播,CDN費用高達1.58億。好在視頻圖像內部幀與幀之間存在很是高的相關性,採用視頻壓縮技術去除相關性後,能夠將帶寬下降到原來的100-400倍;

視頻壓縮標準主要有ISO(國際標準組織)制定的MPEG系列和ITU(國際電信聯盟)主導的H.26X系列,2003年兩大組織組成聯合專家組(JVT),共同制定了AVC(H.264)編碼標準,2013年JVT發佈了HEVC(H.265)標準,HEVC 做爲比AVC更新一代的視頻壓縮標準,相同畫質下能夠節省一半碼率.

S265是基於H.265標準實現的軟編碼器,具備高壓縮、高效率、適應場景廣三大特色,對比業界開源的X265可節約20%以上的碼率且編碼速度提高100%-600%;目前已在淘寶直播、優酷視頻、阿里雲MTS、VMate、釘釘會議等業務中上線使用;

S265的優化思路包含兩個方面,一方面從碼率控制、編碼工具兩個方向優化編碼質量,另外一方面從快速算法及工程優化兩方面優化編碼速度,下表能夠看到,S265相比X265和X264都有更高的碼率優點或速度優點;

image

下面是一個demo視頻,左邊是S265的壓縮結果,右邊是X265的壓縮結果。能夠看到,同等碼率下S265的地面瓷磚的紋理及水紋更清晰(語雀有二次壓縮,原片更明顯)

output.mp4

左邊S265,右邊X265

從另外一個角度看,相同質量下,S265的碼率能夠大幅節省,從而下降帶寬成本。下圖左側是X264的壓縮2400kbps,右側是S265 1200kbps的結果,碼率相差一倍,S265的質量還更好。

45_x264_ali265.mp4

過去一年,淘寶直播的在線規模增長超過一倍,而CDN的帶寬成本幾乎未增長,這仍是在FY20相比FY19已經下降一倍的前提下發生,S265起到了相當重要的做用。

S265下降成本前提下不降體驗

雖然S265大幅下降了直播成本,但體驗並未下降。

在清晰度方面,淘寶直播S265 在720p分辨率下的平均推流碼率在 800kbs如下,但大盤監控的平均psnr大於42db。在今年雙十一還上線了1080p高清直播,知足用戶極致高清的需求。

在流量控制方面,S265支持秒級碼率調控,可讓GRTN流量調度在1秒內完成對大盤流量的控制,實現CDN流量的全面掌控;

在編碼延時方面,S265實現了低延時壓縮模式,相比X265 Medium模式下降了70%的編碼延,且編碼質量幾乎不損失。

最後,伴隨着碼率下降,網絡傳輸的壓力也相應降低,用戶體驗的卡頓率和秒開指標都有顯著提高,過去一年淘寶直播的卡頓vv降低了25%,秒開率絕對值提高了1%,跟碼率降低有直接的關係。

內容分發:二網合一的傳輸系統

在流媒體領域,提到直播技術,每每會想到RTMP、HTTP-FLV、QUIC-FLV、SRT,只有提到連麥、通話、視頻會議,纔會想到RTC(webrtc)。現在淘寶直播架構總體升級,一改往日印象,將直播全鏈路跑在了RTC之上,實現了直播網和通訊網的融合,完成了二網合一。

統一架構後,實時音視頻通話和直播兩大業務,使用統一套代碼,一套運維體系,減小維護成本。同時,淘寶直播針對業務特色,對融合網絡架構進行了深度定製,自研了適合直播業務的擁塞控制算法和網絡傳輸策略。針對 WebRTC 中網絡傳輸的核心,淘寶直播對擁塞控制算法的探索層層深刻。從基於特定網絡場景的深度定製優化,到系統性的參數探測優化,再到基於神經網絡的擁塞控制算法相關的前沿探索,深度定製的優化落地,使得推流端卡頓整體降低 40% ,延遲也降低了 12%,主播推流更加平滑穩定;前沿探索的學術結果,也已經兩次由網絡方向國際頂級會議 MobiCom 接收和發表。

低延遲傳輸是一個綜合性問題,對於直播來講要兼顧成本,體驗,延遲,須要客戶端,服務器配合,基於線上數據不斷迭代。相關控制算法從webrtc完整模塊化剝離和重構,性能是webrtc原來實現的2倍以上,針對直播大的I幀場景深度定製優化,同時兼顧秒開和延遲,追求最大吞吐率。在網絡小範圍抖動狀況下不受影響,最大支持20%丟包和500ms內的抖動。相對於去年同期指標,卡頓率下降79%,卡頓VV下降44%,秒開率提高32%,延遲和首幀到達時間下降100多ms。

image.png

淘寶直播與其餘直播應用對比

經過用秒錶內容推流,拍攝推流和播放內容的方式,測得端到端延時,手淘基本在2秒如下,而行業內大部分直播軟件仍是FLV技術,延時一般在5秒以上。經過嚴格的AB測試證實,端到端延時下降,對促進GMV有正面效果。網絡好時,對比卡頓沒有意義,你們卡頓率都爲0,所以經過網損儀增長30%丟包、100ms延時測試,卡頓狀況就不同了,因爲RTC有擁塞控制、網絡抗丟包策略,30%丟包徹底無卡頓,而FLV直播則有較高的卡頓率。

後續會繼續在統一的直播通訊網上優化,不斷提升淘寶直播的用戶體驗,敬請期待。

觀看體驗:真實還原現場

阿里集團CTO程立分享了他購買古琴的經歷,買古琴不能經過常規的圖文描述來分辨古琴的好壞,賣家將程立引導到直播間,經過主播講解,在直播間聽聲音來分辨古琴好壞。買到琴後發現琴的聲音跟直播間裏聽到的徹底同樣,CTO對淘寶樂器直播間的音質大加讚揚,這種所見即所得的感受是直播最大的優點。

「讓畫面更清晰,讓聲音更真實」,是淘寶直播的極致追求。淘寶直播經過自研3A、智能降噪、高音質模式、窄帶高清等技術,克服生產設備、觀看設備及網絡條件多樣性適配困難,爲主播提供低成本直播方案,爲觀衆打造高清音視頻體驗。

音樂直播間高保真體驗:

音樂直播間.mp3

電商直播中,講解聲音的清晰度直接影響溝通效率,所以要儘可能屏蔽干擾聲音,降噪能力相當重要,淘寶直播團隊在智能降噪上深刻研究,在技術上創新,比傳統技術降噪能力更強,降噪後聲音可懂度更高。

降噪前原始語音:

原始語音.mp3

經過AliDenoise智能降噪後的語音:

AliDenoise語音.mp3

在畫質上,淘寶直播團隊經過去抖、降噪、超分等技術,實現畫質加強。而且藉助S265編碼器高壓縮率的優點,咱們以業界720p的碼率實現了1080P分辨率的高清直播。

720p_1080p.mp4

左邊720P,右邊1080P

宏觀控制:大象也能跳舞

不管怎麼設計,系統的複雜度都會逐漸增長,變成一頭臃腫的大象。通常的系統,牽一髮而動全身,平時已不敢隨意變更,更況且大促等關鍵時刻。然而淘寶直播今年打造了宏觀控制系統,讓這頭大象靈活起來,數據系統如同大象的眼鏡、智能策略系統如同大象的大腦、任務執行系統如同大象的四肢,而業務策略配置系統如同馴獸師手裏的指揮棍。

宏觀控制系統將複雜系統閉環,使得整個系統能觀能控,加強了系統的魯棒性。宏觀控制系統的輸入是當前主播的編碼碼率和直播效果等;基於blink搭建的多數據源自糾錯的實時數據平臺做爲檢測環節將當前的在線主播數、在線觀衆數、CDN帶寬、以及預測的接下來一段時間內的各個數據清洗統計後輸入至決策系統;決策系統融合了限峯策略、時間策略和大主播策略等多種策略,結合數據平臺的反饋數據做出最優決策後通知執行模塊進行調控;基於集團多維消息羣發中間件MASS與長連通道ACCS實現的執行模塊會實時調控主播的編碼碼率、觀衆觀看的清晰度等,實現提升帶寬利用率、提升用戶體驗、下降成本、確保穩定的目的;客戶端編碼器支持實時動態調整編碼碼率和智能碼控檔位,支持幀級實時調控,碼率調控秒級生效。宏觀控制系統讓資源管控更加彈性,在咱們沒法準確預見將來時,申請資源以及準備資源是一個大難題,有了宏觀控制系統狀況後,不用爲資源預估不許而犯愁,宏觀控制系統能夠根據實時數據進行預測而且彈性地調整人均消耗的資源。

image.png

宏觀控制對帶寬調整的效果

在今年雙十一期間,宏觀控制系統經過上下調整碼率等策略,實現了人均消耗帶寬在平時的0.5倍~1.5倍之間浮動。不再用由於在線人數偏低而浪費帶寬,也不用由於在線人數偏高而致使部分用戶被限流,值班同窗能夠安心地邊吃零食邊看直播了。

內容生產經過AI等技術,產生更有趣的直播內容,而後經過高效率的S265壓縮算法編碼,獲得較低的音視頻碼率,在而後經過去中心化的RTC網絡分發到各個觀衆,最後經過高質量的觀看體驗,真實還原現場,整個系統須要宏觀控制帶寬、質量,須要有一個系統從大局控制。

今年淘寶直播全方位升級換代,整個系統內容比較多,接下來將會對這一些列技術展開描述,敬請關注後續的子主題。

(淘寶直播專題內容正在更新,歡迎關注【淘系技術】公衆號)
相關文章
相關標籤/搜索