本文由淘寶直播音視頻算法團隊原創分享，原題「5G時代|淘寶直播高畫質低延時技術探索」，收錄時有改動。html

一、引言

目前，5G技術應用正在逐步推動，相比目前普遍使用的4G，它具備更高的速率，更大的容量，同時延遲更低，可靠性更高。算法

在5G時代，得益於網絡帶寬的提高，視頻將來將成爲主流的傳播媒介。愈來愈多的業務和應用將視頻化、直播化。大量互動的內容將經過5G以低延時的方式以視頻的形式傳輸。5G將對視頻分辨率和清晰度提出愈來愈高的要求。數組

淘寶做爲一個數億級用戶的短視頻與直播平臺，業務多樣，兩端用戶分佈廣，設備和網絡狀況複雜，給多媒體內容存儲和分發帶來巨大挑戰。緩存

本文由淘寶直播音視頻算法團隊分享，對實現高清、低延時實時視頻直播技術進行了較深刻的總結，但願分享給你們。服務器

二、入門文章

若是你對視頻直播技術沒什麼瞭解，能夠先讀如下入門文章：markdown

《移動端實時音視頻直播技術詳解（一）：開篇》網絡

《移動端實時音視頻直播技術詳解（二）：採集》多線程

《移動端實時音視頻直播技術詳解（三）：處理》架構

《移動端實時音視頻直播技術詳解（四）：編碼和封裝》app

《移動端實時音視頻直播技術詳解（五）：推流和傳輸》

《移動端實時音視頻直播技術詳解（六）：延遲優化》

三、正文概述

面對實時視頻直播技術的的高需求，當前面臨的主要問題有：

1）須要在內容生產過程當中把控好質量和成本；
2）須要在內容分發和消費過程當中確保用戶體驗。

爲了解決這個問題, 咱們有兩個優化目標：

1）一是在畫質不變的前提降低碼率；
2）二是在碼率不變的前提下提高畫面質量。

在降碼率上，咱們經過如下手段有效地下降了視頻碼率帶寬：

1）自研高效編碼器；
2）升級播放架構；
3）添加智能ROI；
4）場景編碼；
5）智能碼控等工具。

在這些技術中：

1）高效的編碼器可以在質量不變的前提下顯著下降碼率；
2）場景編碼可以根據不一樣的畫面內容配置合適的編碼參數；
3）ROI挑出畫面中人眼比較關注的區域交給編碼器重點編碼；
4）智能碼控根據人眼主觀特性，消除由於超過人眼閾值而浪費的碼字。

在畫質上，咱們使用瞭如下算法提升生產內容的觀感質量：

1）前處理加強；
2）去噪；
3）超分高動態範圍等。

**在體驗優化上：**經過低延時編碼技術，在下降了編碼延遲的同時損失很小的碼率，增長觀衆和主播的體驗。

圍繞着提升問題發現、問題處理效率的出發點，具有數據採集、存儲、異常事件收集、智能告警、告警數據運營、可編碼診斷平臺、故障自動化處理、變動聯動等能力。咱們搭建了一套基於淘寶直播的全鏈路監控體系，從音頻，視頻，網絡這三個方面入手去解決目前淘寶直播全鏈路的現有問題以及未來可能出現的問題。不斷去優化整套高畫質低延時系統。

與此同時，咱們創建了客觀質量和主觀質量評價體系，採用vmaf、psnr、ssim這一系列的指標做爲客觀質量評價。針對海量無源場景，咱們還基於cnn創建了無源評價模型，保證無源場景下質量評價的準確性。以這些有效的評價手段來確保「畫質不變」，並監控線上視頻質量。

下面的章節將針對上述的主要技術實踐，進行深刻的分享。

四、窄帶高清實踐

4.1 自研的S265編碼器

帶寬成本是視頻服務中很是重的基礎設施成本，如何在保證視頻質量的前提降低低成本是整個鏈路中相當重要的一環。

相機採集到的視頻數字信號，數據帶寬一般都很是高：以720p 25fps爲例，帶寬高達263.67Mbps，很難存儲和發送。

好在視頻圖像內部，幀與幀之間存在很是高的相關性，採用視頻壓縮技術去除相關性後，能夠將帶寬下降到原來的100-400倍。（有關視頻編碼技術，這裏有篇更通俗的：《零基礎，史上最通俗視頻編碼技術入門》，建議入門必讀）

視頻壓縮標準主要由ISO（國際標準組織）制定的MPEG系列和ITU（國際電信聯盟）主導的H.26X系列，每隔十年時間，視頻壓縮標準升級帶來的壓縮率會提高一倍。

h265做爲比h264更新一代的視頻壓縮標準，提供了更靈活的編碼結構和劃分方式，並在在運動補償、運動矢量預測、幀內預測、變換、去塊濾波、熵編碼等方面進行了大量改進與優化，得益於這些新的編碼工具和特點技術，相同畫質下最高能夠比H.264節省一半碼率，爲了在不犧牲畫質的前提下節省碼率，h265成爲咱們首選的編碼標準。

Ali265是淘寶自研的高性能H.265編碼器，對比業界開源的X265可實現BDrate20%以上的增益，對比X264則有40%以上的增益。目前已在淘寶直播，優酷視頻，阿里郎會議、VMate、UC雲盤等業務中上線使用。

淘寶直播技術團隊聯合阿里雲團開發了s265編碼器，對比業界經常使用的開源軟件X265，1pass單遍編碼在相同psnr指標下：

1）veryslow速度檔次有28%碼率節省；
2）medium速度檔次有36%碼率節省；
3）crf模式與abr模式節約的碼率接近。

S265編碼從碼率控制、編碼工具兩個方向優化編碼質量，並從快速算法、工程算法兩方面引入速度優化算法。下節將詳細分享。

4.2 S265編碼器的主要優化方法

4.2.1）碼率控制：

爲了進一步提升壓縮質量，在編碼器框架標準必定的狀況下，編碼器算法優化主要的方向是找到策略選擇出最優的編碼方法和編碼參數，從而得到更好的碼率節約。

合理分配碼率是編碼器的一個重要工做，碼率控制的目標是把碼字分配到更有價值的地方，從而在目標碼率下使得編碼失真降到最低，或者在失真固定的前提下使碼率降到最低。

碼控須要解決兩個經典問題：

1）一是幀級碼控和塊級碼控根據目標碼率來分配每一個GOP、幀、編碼塊的碼字數量；
2）二是塊內編碼時以最合理的方式把這些碼字分配到每一個編碼塊中。

在幀級別碼控中，傳統方法統計全部已編碼幀的長期複雜度, 根據長期複雜度及當前碼率之間的比例計算出QP。

這樣一來，QP對幀複雜度愈來愈不敏感,致使編碼質量降低或碼率過剩。特別是在計算首幀qp時，以往算法採用了一個只和當前碼率有關的經驗值。咱們基於cutree理論準確估計預分析長度中ipb幀的碼率佔比和預期編碼大小，從而在編碼前得到更準確的量化係數。

塊級碼控分配則受時域cutree和空域AQ影響。在時域上IBP幀的重要性是明顯不一樣的，被後續幀參考的塊，不只影響自已自己的質量，還會影響到後續幀的質量，所以被參考更多的塊須要進行高質量編碼。

cutree算法根據幀內預測代價和幀間預測代價計算信息的傳遞比例, 算出當前塊對後續序列的影響程度，進而調整qp偏移。但考慮到在不一樣的噪聲能量，運動強度，紋理邊緣強度，以及編碼參數下，不一樣參考塊的調節爲後續幀的節約比例是不同的，因此s265經過參數訓練的方法，得到多個因素對傳遞效率的影響，獲得一個更準確的信息傳遞比遞，從而更合理地在時域上分配碼率。

▲ cutree傳遞過程

另外一方面，空域上各塊之間的重要程度也是不同的。

人眼是視頻的最終觀察者，從人類視覺系統出發，不一樣的塊在人眼中的視覺冗餘不相同，好比人眼存在視覺掩蔽效果，它對顯著紋理和強邊緣附近的噪聲不敏感，將碼率更多分配向人眼敏感的平坦區域，能夠獲得更好的主觀質量。

在編碼器中，咱們經過計算塊的方差能量及邊緣能量做爲塊的代價，研究不一樣塊能量和人眼感知程度之間的關係，估計出塊間碼率配分對人眼注意力的影響，合理分配碼率到更重要的紋理塊，提升視頻感知編碼效率。

4.2.2）編碼工具：

在編碼工具上，S265對傳統的場景切換檢測、幀類型決策、SAO、DEBLOCK、兩遍編碼、RDOQ等編碼工具算法作了改進，並實現一批編碼工具。

**好比：**在參考幀模塊, 有較多的工具能夠提升參考效率。

**首先：**長期參考幀和廣義B幀等幀類型能夠提升預測質量，長期參考幀針對背景不多發生變化的直播場景，它有效減小信息通過多幀傳遞帶來的損失，引用長期參考幀可將平均EV提升大概0.25dB。而傳統P幀改成廣義b幀，採用雙向預測取代單向預測從而下降噪聲，光照變化，採樣偏差等預測殘差源。

在擴充了幀類型後，咱們基於參考強度作IBP幀幀類型決策。

**而後：**在minigop內部，咱們使用金字塔結構的參考關係, 獲得比傳統結構得到更短的參考距離。

**最後：**在管理和選擇參考幀時，咱們考慮到靜止塊和運動塊的區別，靜止塊傾向於參考質量高的幀，運動塊傾向於參考時間近的幀，因此針對場景篩選出這兩種類型的參考幀能獲得更好的參考質量。

4.2.3）速度優化：

HEVC編碼器帶來了編碼效率的提高，但不少新的編碼工具都存在計算複雜度太高的問題。

**所以：**優化編碼器速度，在高端機上能打開更多的編碼工具，搜索更大的編碼模式空間。進一步提高編碼質量，在低端機上則能下降CPU發燙和編碼卡頓的現象。

HEVC能夠將圖像塊從64x64劃分到4x4，同時塊的類型模式激增，備選的編碼模式數量是h264的數倍，塊劃分及模式決策所以成爲一個重要的瓶頸。

**因此：**在RDO中，減小CU劃分層級的搜索次數，篩選出一些必要的層級是減小計算量的重要手段。

**首先：**利用時間和空間相關性，能夠從參考塊獲取到一些先驗信息, 再結合本塊的運動信息和紋理信息，分析預判出當前塊CU層級的最大估計層級和最小估計層級。

**其次：**在決策過程當中的提早跳出策略也能夠大幅下降計算量，咱們根據圖像紋理的平坦程度, 或者各類模式下的rdcost對比，提早跳出當前的模式遍歷。而在一些圖像非線性的場景，咱們經過CNN深度學習模型輔助決策模式。

**進入決策模塊的內部：**一樣存在大量複雜的計算。

幀內預測存在35種模式，咱們能夠經過貝葉斯理論，求出最簡單的幾種模式後，估計出最佳模式最可能出現的位置，從而爲幀內模式篩選過程提高一倍速度並將損失控制在0.01db。

另外，幀間預測的運動搜索是從參考幀尋找最佳匹配塊的過程，它的分像素搜索須要作7抽頭或者8抽頭的插值濾波，計算量很大。咱們因此能夠利用整像素的信息創建二元二次偏差平面方程，估算最佳分像素點的位置，避免了分像素的完整搜索過程。

在評價模式的優劣時一般採用rdcost做爲模式的代價，它須要計算編碼比特數和編碼失真。

這就須要將編碼係數進行熵編碼計算碼流長度，同時還要將編碼係數變換回時域求失真。

爲了下降rdcost的計算量，咱們採用了失真和碼率的線性估計算法，包括兩個部分：

1）其一是量化偏差能量在頻域計算，利用IDCT變換的能量不變性，計算量化餘數的平方和估計失真；
2）其二是創建編碼係數特徵信息和碼流大小之間的線性關係，直接從係數特徵信息估計出熵編碼的大小。

經過這個方法能夠跳模式代價計算的熵編碼過程以及，反變換，反量化，重建，SSE等過程。節約了大量的計算。

在rdo以外：咱們還改進了slicetype決策算法，動態拉格朗日因子調整算法，快速deblock和sao決策等。

在工程優化方面咱們也添加了多項優化：

1）C函數優化，經過優化流程邏輯、拆分特殊路徑、合併分支、查表、循環優化等給rdoq模塊、係數解析、deblock等模塊帶來近一倍的提高；
2）針對密集計算的函數咱們simd化並優化彙編代碼的執行速度。

s265通過快速算法與工程兩個層次上的優化，咱們爲HEVC編碼帶來了明顯的性能提高。從而在低端iphone上實現720P 30幀每秒的實時編碼。

4.3 智能碼控

智能碼控是淘寶自研的碼率控制算法。

普通ABR或CBR碼率控制爲了追求目標碼率，在低複雜度場景浪費了大量碼率，根據人眼主觀質量模型，當psnr高於必定閾值後再提升質量人眼沒法察覺只會消耗過多碼字。

咱們使用機器學習方法，根據17種歷史編碼信息和待編碼幀的複雜度，預估出待編碼幀在質量閾值以上的量化係數，並限定在ABR目標碼率如下，確保每一個幀都能以最合適的碼率編碼。

通過淘寶直播線上驗證，可達到15%的省流，在釘釘直播中使用更是節省了52%的帶寬並下降了62%的推流側卡頓。

4.4 場景編碼

因爲當前淘寶直播種類的豐富性，各類場景下的紋理、光照、背景、運動程度都是不同的。

好比：

1）戶外主播常常走動，畫面幀變化幅度頻率高；
2）美妝主播大多坐在室內，光照基本上比較偏亮；
3）珠寶類主播主要是拍攝物品，畫面多靜止不動。

面對形形色色的直播場景，單一的編碼器配置並不能知足當前淘寶直播的需求，開啓或關閉某些編碼工具對視頻編碼效果影響不一致，如何針對內容選擇最佳參數成爲業界研究的方向。

在此需求下，咱們提出了基於不一樣場景的編碼參數配置策略。

**首先：**咱們經過多個深度學習與機器學習模型對數萬條各類內容的直播視頻進行了數據訓練分類。

包含兩個大的特徵維度，分別是：

1）語義特徵；
2）信號特徵。

語義特徵包含：

1）主播分級；
2）商品特徵；
3）環境特徵；
4）聲音特徵；
5）時域空域RoI。

信號特徵包含：

1）運動特徵；
2）紋理特徵；
3）噪聲特徵；
4）亮度特徵。

經過對不一樣特徵種類的視頻集，咱們單獨使用大規模服務器集進行最佳編碼參數搜索，自動化高效地搜索到適合當前視頻編碼的最佳編碼參數組合，在提高畫質的同時能儘量地減小碼率消耗。並最終根據編碼參數集進行聚類分爲多個參數配置項。

在主播須要推流的時候，首先進行標準的編碼參數配置進行推流。收集必定的數據以後，咱們將獲得的視頻語義特徵和信號特徵送入自適應決策引擎，經過裏面的深度神經網絡進行視頻分類，決策出當前視頻應該下發的編碼參數配置，而後咱們將新的參數配置從新送入編碼器進行新的推流，以此優化使主播得到當前狀況下最優質的視頻編碼。

經過此方法，咱們在淘寶直播裏面得到了7-10%的BDrate收益，在淘拍場景下得到了40%的BDrate收益。

4.5 低延時編碼

在直播中，低時延意味着高效率和優質體驗。

試想如下場景：

1）場景一：當主播展現下一個商品後，10秒才收到上一個的商品的提問；
2）場景二：釘釘課堂直播中，老師提問後遲遲得不到學生的反饋，浪費部分時間。

這些場景給用戶帶來糟糕的體驗，使得直播賣貨、直播課堂效率低下。

當5G普及，會帶來更低的時延，帶來更好的體驗，可是當下仍是4G爲主，下降時延有頗有必要。

端到端延遲主要分佈在：

1）採集；
2）編碼；
3）傳輸；
4）轉碼；
5）分發；
6）播放。

這部分主要優化編碼延遲。

編碼延遲又分爲：

1）多線程致使的延遲；
2）緩存幀數延遲；
3）B幀數帶來的延遲等。

其中編碼延遲最大的一部分來源於編碼器緩存，經過分析編碼前的緩存圖像，能夠大大的增長編碼效率。若是粗暴的下降編碼器緩存，能夠實現較低的延遲，可是質量損失比較高。

全部產生了一種想法，能不能用較少的緩存去模擬較長的緩存的效果？

經過分析cutree的原理，結合統計lookahead長度跟傳遞代價的關係，能夠發現緩存長度跟傳遞代價很強的線性關係。

以下圖所示：

根據場景能夠用不一樣的預測模型變種，最終實現用較短的lookahead模擬較長的lookahead的效果，測試在直播素材中lookahead4優化後比優化前能夠節省13.5%的碼率,有效的下降了編碼延遲。

結果示意圖以下：

同時，在以前的測試中發現，該優化對場景不敏感，運動簡單場景和運動複雜場景提高一樣有效。

過去一年，咱們採用前述優化，將265碼流在畫質不變的前提下，將碼率從1.4M降低到800K。

4.6 畫質加強

在淘寶直播的場景中，大主播有本身的專業設備與團隊，直播出來的視頻與音頻都是比較高質量的。可是針對中小主播，用戶的行爲不可控。

所以產生的結果就是不少中小主播產生的視頻質量比較低，收穫的觀衆數量也比較少。

針對這種狀況，咱們選取了用戶習慣產生最嚴重的幾種狀況，對這一類主播進行了畫質增長的，顯著提高了用戶的直播體驗。

下面介紹一些已經有的應用效果。

4.6.1）去抖：

▲ 去抖動效果（原始視頻連接點此查看）

現代編碼器可以較好的處理平坦紋理和平移運動，前者經過幀內預測來消除空間相關性，後者經過運動搜索來消除幀與幀之間的時間相關性。

可是在視頻採集過程當中，因爲攝像機抖動產生的視頻幀抖動，編碼器不可以很好的處理。

因爲抖動劇烈的通常是中小主播，且攜帶的設備比較老舊，咱們考慮從採集源來改善視頻幀，最終在這裏咱們採用相機路徑平滑算法來去除視頻幀中的抖動。

4.6.2）去噪：

視頻直播在燈光不太理想的狀況下，攝像頭採集的畫面會產生明顯的飛蚊噪聲和高斯白噪聲，嚴重影響用戶對視頻內容的感覺，這種狀況下，有必要對視頻進行降噪。

現有的不少優秀的雲端去噪算法，其實對於移動端來講採用深度學習的方法就不合適。

雖然如今有不少移動端深度學習框架，可是畢竟尚未跟機器是配得很是好，針對不少中低端的手機其實跑不動這種生成模型的。

基於此，咱們在移動端主要是考慮效率，那麼咱們就採了基於維納濾波的時域降噪算法方式來實現，進行訓練和優化。

4.6.3）超分：

針對一些小微主播，錄播設備只能支持360p，最終觀衆端看到的視頻會經過插值等傳統方法進行放大爲720p。這樣得到的視頻幀不免產生模糊效果，影響直播觀感。

得益於深度學習在移動端的優化，咱們在部分高端機實現了移動端視頻幀的實時超分。

在衆多的網絡架構中，咱們最終選擇了性能最佳的FSRCN方案，網絡的架構圖以下所示。

**在訓練過程當中：**咱們精選了1W+淘寶個品類的高清大圖，結合業界的高清開源數據集，利用樣本加強技術，訓練了5000輪左右的模型達到收斂效果。

**此外：**爲了消除圖像分塊帶來的邊界效應，咱們作了圖像重疊合並的操做，在增長部分計算時間的狀況下帶來了更好的超分效果。

爲了在手機端實時運行：避免佔用過多資源，咱們優化反捲積計算，並針對人眼視覺特性，對強紋理和靜止區域部分像素進行超分，以此大幅提升移動端的效率。

五、低延遲傳輸實踐

5.1 低延遲播放器

5.1.1）常規播放器的延遲分析：

目前基於TCP的直播傳輸技術主要有 HLS和RTMP/HTTP-FLV兩個協議。

其中HLS直播的延遲通常在10秒以上，HTTP-FLV直播的延遲通常在6到9秒，從推流、cdn分發到播放的整個直播鏈路看，延遲的大頭來自播放端。

在播放器中，幾乎每一個線程都有本身的緩衝區，這些緩衝區的做用是平滑整個播放鏈路的抖動，它們的大小決定了播放過程當中的播放延遲和播放的流暢性。

VideoBuffer和AudioBuffer用來存放待解碼的音視頻 packet，該緩衝區是爲了平滑網絡的抖動，推流、CDN傳輸和播放下載的抖動都會堆積到播放端，這是常規播放器延遲最大的一個產生點，爲提高直播的總體流暢度，緩衝區延遲通常在5秒以上。

基於TCP的媒體傳輸並不適用於低延遲直播場景，主要緣由以下：

1）重傳慢：TCP追求的是徹底可靠性和順序性，丟包後會持續重傳直至該包被確認，不然後續包也不會被上層接收，且重傳超時時間通常200ms，會形成接收側幀抖動；
2）上層沒法針對優化：TCP擁塞控制和 Qos 策略在操做系統內核層實現；
3）擁塞判斷不許確：基於丟包的擁塞控制跟實際網絡狀況不符，丟包並不等於擁塞，也會形成發送鏈路 bufferbloat，鏈路RTT增大。

咱們的低延遲傳輸SDK是基於WebRTC打造的，使用了WebRTC的幾個核心模塊，包括 RTP/RTCP、FEC、NACK、NetEQ、JitterBuffer、音視頻同步、擁塞控制等。

NetEQ和JitterBuffer分別是音頻和視頻的網絡抖動緩存區，這是傳輸SDK延遲最大的一個產生點。

RTP over UDP可以更好地對抗公網的丟包，結合自適應緩存和Qos優化，確保直播總體流暢度的條件下，咱們的JitterBuffer的緩衝區延遲可以控制在700毫秒如下，直播觀看延遲在1秒左右。

5.1.2）播放器對低延遲傳輸SDK的接入適配：

咱們對低延遲傳輸模塊封裝了FFmpeg的擴展demuxer，將支持低延時傳輸協議的demuxer註冊到FFmpeg，播放器經過FFmpeg打開網絡鏈接讀取數據，這種接入方案基本不影響播放器原有邏輯，對播放器改動較小。

主要改動點以下：

1）緩衝區大小控制：

使用低延遲傳輸協議拉流時，網絡的抖動緩衝區是底層傳輸模塊的JitterBuffer，播放器層的JitterBuffer的緩存應設置爲0秒，不然會引入多餘的延遲；

2）卡頓統計修改：

通常播放器根據緩衝區水位大小判斷卡頓事件，當緩衝區爲空或持續空一段時間，這會導播放畫面卡頓，同時觸發卡頓事件，播放器的JitterBuffer被低延遲傳輸SDK接管後，卡頓事件也應該由低延遲傳輸SDK觸發；

3）音頻解碼流程：

從NetEQ獲取的音頻已是PCM數據了，播放器讀取的音頻數據可直接渲染，若是音頻使用硬解，可能會出現解碼兼容問題，現象是聽不到聲音，使用FFmpeg軟解也是能夠兼容的。

5.2 低延遲服務器

低延遲傳輸是一個綜合性的問題，要從總體入手，不只要從設計上考慮，還須要客戶端，服務器，數據系統緊密配合。

從傳輸協議設計上採用rtp/rtcp方案。基於udp半可靠傳輸，技術成熟，更加適合音視頻場景。難點在於既要降卡頓，也要降延遲。

咱們使用的總體算法策略以下：

a）擁塞控制：擁塞控制gcc&bbr算法針對直播場景深度優化，同時兼顧秒開和延遲。
b）分層丟幀：基於B幀的SVC算法和丟gop策略在網絡擁塞時保證快速下降碼率，解決擁塞。
c）重傳控制：重傳控制既要抑制重傳風暴，也要保障快速重傳。
d）平滑發送優化：平滑發送策略防止網絡突發，平滑流量。同時針對秒開場景深度定製。從新設計發送機制和算法，發送性能大大提升。
e）秒開優化：服務器和端配合的多種秒開策略，保證極速開播。淘寶直播大盤平均秒開率94%以上。
f）信令優化：從信令設計上採用rtcp app私有協議，和音視頻傳輸使用一個socket鏈接。建聯協議更加精簡，保障 1RTT快速給出媒體數據。

除此以外還進行了大量策略到算法上的改進和優化，基於數據驅動，針對場景不斷迭代優化。

5.3 端到端全鏈路分段統計

咱們設計的端到端延遲分段統計系統，既能統計單次播放的整體延遲，也能統計每一個階段延遲。

不依賴ntp時間，適合超大規模網絡。

經過分析不一樣平臺推流端，服務器，播放器各個階段的延遲狀況，大盤展現出來，能夠針對專項作優化。

六、展望將來

伴隨着5G網絡的提速，主播側到用戶側的延時將會愈來愈短。

移動端自己的性能提高，各類畫質加強，圖像渲染技術也會慢慢硬件化。

移動端的深度學習模型也逐漸變得輕量化，這使得學術界各類愈來愈先進的創新也得以工程化。

淘寶直播技術乾貨：高清、低延時的實時視頻直播技術解密