原文 :http://webrtcbydralex.com/ind...php
如何確保WebRTC視頻通話或視頻流的質量良好呢?
能夠從統計API中獲取全部可能的指標,但仍然沒法接近答案。緣由很簡單。首先,報告的大部分統計數據都是關於網絡的,而不是視頻質量。而後,衆所周知,而且嘗試過的人也知道,雖然這些影響了通話的感知質量,但它們並不直接相關,這意味着您沒法根據這些指標猜想或計算視頻質量。最後,通話質量是一個很是主觀的問題,而這些問題是計算機難以直接計算的。web
在受控環境中,例如在實驗室中,或在進行單元測試時,人們可使用參考指標進行視頻質量評估,即在發送方標記帶有ID的幀,而後捕獲接收方的幀,匹配ID (以補償抖動,延遲或其餘網絡引發的問題)並測量兩個圖像之間的某種差別。谷歌的 「 全棧測試 」 能夠解決許多編解碼器和網絡損傷的問題,能夠做爲單元測試套件的一部分運行。可是如何在生產和實時中作到這一點呢?
對於大多數WebRTC PaaS用例,參考框架(https://chromium.googlesource...)不可用(服務提供商以任何方式訪問客戶內容都是非法的)。固然,服務的用戶能夠在發送方和接收方來記錄流,並離線計算質量得分。可是,這不容許對忽然的質量降低採起行動或作出反應。它只會有助於過後分析。那麼如何在不須要額外錄音、上傳、下載...的狀況下實時檢測到質量降低並採起行動呢?
在個人案例中,或者在某些特定狀況下,哪一個WebRTC PaaS提供了最佳視頻質量呢?對大多數人來講,這是一個沒法回答的問題。如何在檢測網絡的同時實時、自動實現4×4比較,或者這種Zoom與WebRTC(https://jitsi.org/news/a-simp...)的比較呢?
CoSMo R&D推出了一種新的基於人工智能的視頻評估工具,與其KITE測試引擎和相應的網絡儀表模塊相結合,實現了這一壯舉。
介紹
1992年,康奈爾大學(Cornell University)的CU-SeeMe開始進行第一次互聯網上實時通訊(RTC)實驗。隨着Skype在2003年8月的推出,RTC在互聯網上迅速普及。從2011年開始,WebRTC技術使得RTC能夠直接在web瀏覽器和移動應用程序上使用。
根據2017年6月發佈的思科視覺網絡指數【1】,實時視頻流量(流媒體,視頻會議)應從2016年互聯網視頻流量的3%(每個月1.5 exabyte)急劇增加到2021年的13%(每個月24 exabyte)。
對於任何處理視頻的應用程序,終端用戶的體驗質量(QoE)是很是重要的。行業中已經有許多工具和指標來自動評估視頻應用程序的QoE。例如,Netflix開發了視頻多方法評估融合(VMAF)度量【2】,經過使用不一樣的視頻編碼器和編碼設置來度量交付的質量。這個度量有助於常規和客觀地評估幾十個編碼設置下的數千個視頻編碼的質量。
但它須要原始參考非失真視頻來計算壓縮後的視頻質量得分。該方法很好地適用於非失真視頻預先錄製內容的視頻流,但不適用於RTC,由於RTC一般沒法提供原始視頻。
能夠從源端記錄原始視頻,可是不能實時地進行視頻質量評估。此外,在實時通訊期間錄製實況視頻會帶來法律和安全問題。因爲這些緣由,執行視頻質量評估的實體(例如第三方平臺即服務)可能不能被受權存儲視頻文件。
所以,RTC的特殊狀況不能經過須要參考視頻的度量來解決。所以,有必要使用無需參考指標的評估方法。這些指標稱爲無參考視頻質量評估(NR-VQA)指標。
I. 視頻質量指標
視頻質量評估技術可分爲三類。
首先,存在全參考(FR)技術,其須要徹底訪問參考視頻。在FR方法中,咱們發現了傳統的視頻質量方法:信噪比(SNR),峯值信噪比(PSNR)【3】,均方偏差(MSE),結構類似性(SSIM)【4】,視覺信息保真度(VIF)【5】,VSNR【6】或視頻質量度量工具(VQM)【7】。
這些指標衆所周知且易於計算,但它們並不能很好地反映用戶體驗的質量 【八、9】。
而後存在縮減參考(RR)技術,其須要從參考視頻提取的一組粗略特徵。
最後,無參考(NR)技術不須要關於參考視頻的任何信息。實際上,他們根本不須要任何參考視頻。
對NR視頻質量指標的全面而詳細的評論已於2014年發佈【10】。最近對音頻和視頻質量評估方法的調查已於2017年發佈【11】。 度量被分爲兩組:基於像素的方法(NR-P),其根據從基於像素的特徵導出的統計來計算,以及比特流方法(NR-B),其從編碼的比特流計算。
II. 先前爲WebRTC視頻質量評估所作的努力
在文獻【12】中已經提出了經過WebRTC向許多觀衆評估廣播視頻質量的第一個舉措。對於這個實驗,做者使用SSIM索引【4】做爲視頻質量的衡量標準。測試的目的是測量有多少觀衆能夠加入觀看廣播,同時保持可接受的圖像質量。在準確評估用戶體驗時,結果並不肯定。隨着加入廣播的觀衆數量的增長,SSIM測量值仍保持使人驚訝的穩定,其值爲[0.96,0.97]。而後忽然,當客戶端數量達到大約175時,SSIM降低到接近0的值。當從1到175的觀衆增長時,用戶體驗不可能在沒有質量損失的狀況下保持可接受。此外,測試使用的是僞客戶端,只實現了WebRTC中負責negotiation和傳輸的部分,而不是WebRTC媒體處理管道,這對於評估廣播實驗的視頻質量是不現實的。
在文獻【13】中,做者評估了在有損網絡上壓縮和傳輸受損的視頻上的各類NR指標(0到10%丟包率)。研究的八個NR度量是複雜性(幀中存在的對象或元素的數量),運動,塊效應(相鄰塊之間的不連續性),急動(幀的非流暢和非平滑呈現),平均模糊,模糊比,平均噪音和噪音比。因爲這些NR指標中沒有一個可以準確評估此類受損視頻的質量,所以他們建議使用機器學習技術將若干NR指標與兩個網絡測量(比特率和數據包丟失水平)相結合,以提供改進NR度量標準可以提供與視頻質量度量(VQM)至關的視頻評級,這是一種可靠的FR度量,可提供與人類感知的良好相關性。在本次實驗中,他們使用了從實時質量視頻數據庫得到的十個視頻。這些視頻使用H.264在8個不一樣級別進行壓縮,而且經過網絡傳輸時受到了損害,網絡丟失了12個包。
他們根據FR度量標準視頻質量度量(VQM)【14】給出的分數評估了他們的結果質量,但沒有針對NR度量。
在文獻【15】中,做者依靠許多基於比特流的特徵來評估接收視頻的損傷以及這些損傷如何影響感知視頻質量。
論文【16】提出了音頻和視頻指標的組合來評估視聽質量。評估已在兩個不一樣的數據集上進行。
首先,他們展現了FR指標組合的結果。做者選擇的FR音頻指標是音頻質量的感知評估(PEAQ)【17】和ViSQOL【18】。至於FR視頻指標,他們使用視頻質量度量(VQM)【7】,峯值信噪比(PSNR)和SSIM【4】 。
而後他們展現了NR指標組合的結果。NR音頻指標是SESQA和下降的SESQA(RSESQA)【19】。對於NR視頻指標,他們使用了塊狀模糊度量【20】,盲/無參考圖像空間質量評估器(BRISQUE)【21】,盲圖像質量指數(BIQI)【22】 和天然圖像質量評估器( NIQE)【23】。兩個數據集的最佳組合是RSESQA的塊狀模糊。
最近在移動寬帶網絡上評估WebRTC視頻流體驗質量的實驗已在文獻【24】中發表。各類分辨率的不一樣視頻(從720×480到1920×1080)經過Chrome瀏覽器和Kurento Media Server之間的WebRTC進行視頻通話的輸入。WebRTC視頻的質量由28人主觀評估,得分從1(質量差)到5(優質)。而後,做者使用了幾個指標,這些指標均基於原始視頻和WebRTC視頻之間計算的錯誤,以客觀地評估WebRTC視頻的質量。不幸的是,做者沒有清楚地報告主觀評估與計算的客觀測量之間是否存在相關性。
III. NARVAL:基於神經網絡的視頻質量評價無參考指標的聚合
III.1 方法論
這項工做主要有兩個部分:第一,從表明視頻會議用例的視頻中提取特徵(與例如Netflix使用的預先錄製的內容),而後訓練模型以預測給定的分數視頻。咱們使用了六個公開可用的視頻質量數據集,其中包含視頻通訊期間可能出現的各類失真,以訓練和評估咱們模型的性能。數據庫
對於特徵提取部分,咱們選擇了在不一樣圖像質量數據集上發佈和評估的度量和特徵。在咱們的數據庫的視頻上計算它們以後,咱們存儲了數據以便可以在訓練部分中重複使用它們。而後能夠處理數據以用於咱們的訓練模型,例如取得視頻上的特徵的均值。第二部分,咱們使用了不一樣的迴歸模型,主要是輸入和層變化的神經網絡,也支持向量迴歸。
咱們爲每一個模型測試了多個參數組合,而且僅針對每一個模型類別保持最佳。除了最基本的神經網絡以外,還使用了卷積,循環和時間延遲神經網絡。數組
NARVAL TRAINING:密集深度神經網絡圖
咱們使用5倍擬合在數據庫上訓練咱們的模型,而後屢次重複訓練。因爲每一個數據庫包含多個失真,咱們不能隨意拆分摺疊,所以咱們嘗試選擇5個摺疊,這樣全部失真都存在於一個摺疊中,而且咱們對全部測試保持相同的分佈。而後,只考慮摺疊的平均值。
另外一種建立摺疊的方法是製做一個視頻,它的變形是一個摺疊。使用這種方法,摺疊會更小,驗證摺疊對模型來講是全新的。
III.2 結果
首先針對訓練集(即具備已知分數的集合)進行驗證,以查看咱們計算的視頻質量是否與已知值匹配,以下所示。瀏覽器
NARVAL TRAINING:3D卷積網絡圖
爲了進行健全性檢查,咱們再次計算了NARVAL在相同參考視頻上的SSIM和WMAF分數所提供的分數。咱們能夠看到,雖然不徹底相同,但得分表現出相同的行爲。有趣的是,它還說明了圖像處理社區中已知的結果,但在WebRTC社區中顯然是違反直覺的:感知視頻質量不會隨比特率/帶寬線性下降。您能夠在下圖中看到,要將質量下降10%,您須要將帶寬減小6到10倍!安全
結論
實際上,這意味着您如今可使用NARVAL在沒有參考幀或視頻的狀況下計算視頻質量!它爲現有用例中更簡單的實現打開了大門,併爲許多新的用例打開了大門,在這些用例中,能夠在流式傳輸管道的任何給定點進行質量評估。
完整的研究報告可從CoSMo得到。CoSMo還爲兩個實現提供許可證:一個用於研究和原型設計的Python實現,以及一個用於速度和SDK嵌入的C / C ++實現。最終,視頻質量評估將被提議做爲一種服務,與 Citrix的AQA服務創建在POLQA之上。
參考文獻
[1] – Visual Networking Index, Cisco, 2017.
[2] – Toward A Practical Perceptual Video Quality Metric, Netflix, 2016.
[3] – Objective video quality measurement using a peak-signal-to-noise-ratio (PSNR) full reference technique, American National Standards Institute, Ad Hoc Group on Video Quality Metrics, 2001.
[4] – Image Quality Assessment: From Error Visibility to Structural Similarity, Wang et al., 2004.
[5] – Image information and visual quality, Sheik et al., 2006.
[6] – VSNR: A Wavelet-Based Visual Signal-to-Noise Ratio for Natural Images,
chandler et al., 2007.
[7] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[8] – Mean Squared Error: Love It or Leave It? A new look at Signal Fidelity Measures, Zhou Wang and Alan Conrad Bovik, 2009.
[9] – Objective Video Quality Assessment Methods: A Classification, Review, and Performance Comparison, Shyamprasad Chikkerur et al., 2011.
[10] – No-reference image and video quality assessment: a classification and review of recent approaches, Muhammad Shahid et al., 2014.
[11] – Audio-Visual Multimedia Quality Assessment: A Comprehensive Survey,Zahid Akhtar and Tiago H. Falk, 2017.
[12] – WebRTC Testing: Challenges and Practical Solutions, B. Garcia et al., 2017.
[13] – Predictive no-reference assessment of video quality, Maria Torres Vega et al., 2017.
[14] – A new standardized method for objectively measuring video quality, Margaret H. Pinson and Stephen Wolf, 2004.
[15] – A No-Reference bitstream-based perceptual model for video quality estimation of videos affected by coding artifacts and packet losses, Katerina Pandremmenou et al., 2015.
[16] – Combining audio and video metrics to assess audio-visual quality, Helard A. Becerra Martinez and Mylene C. Q. Farias, 2018.
[17] – PEAQ — The ITU Standard for Objective Measurement of Perceived Audio Quality, Thilo Thiede et al., 2000.
[18] – ViSQOL: The Virtual Speech Quality Objective Listener, Andrew Hines et al., 2012.
[19] – The ITU-T Standard for Single-Ended Speech Quality Assessment, Ludovic Malfait et al., 2006.
[20] – No-reference perceptual quality assessment of {JPEG} compressed images, Zhou Wang et al, 2002.
[21] – Blind/Referenceless Image Spatial Quality Evaluator, Anish Mittal et al., 2011.
[22] – A Two-Step Framework for Constructing Blind Image Quality Indices, Anush Krishna Moorthy and Alan Conrad Bovik, 2010.
[23] – Making a 「Completely Blind」 Image Quality Analyzer, Anish Mittal et al., 2013.
[24] – Quality of Experience Estimation for WebRTC-based Video Streaming, Yevgeniya Sulema et al., 2018.
[25] – Real-time communication testing evolution with WebRTC 1.0, Alexandre Gouaillard and Ludovic Roux, 2017.
[26] – Comparative study of WebRTC Open Source SFUs for Video Conferencing, Emmanuel Andre et al., 2018
本文來自CosMos Software創始人Alex. Gouaillard的博客,他同時爲WebRTC、QUIC等標準組織工做。LiveVideoStack對原文進行了摘譯。網絡
網易雲信,你身邊的即時通信和音視頻技術專家,瞭解咱們,請戳網易雲信官網
想要閱讀更多行業洞察和技術乾貨,請關注網易雲信博客
更多精彩內容,關注網易雲信知乎機構號哦~app