前言算法
近年來,線上音視頻的產品形態和應用場景愈來愈豐富,疫情更加速了許多行業線下轉線上的佈局,音視頻技術也愈來愈受到各大廠的重視,Zoom 的股價飛昇,騰訊、字節、阿里等等巨頭的大力投入,令這個賽道的競爭愈加激烈。在這個激烈的競爭環境下,全部的賽道玩家都很清楚,好的音視頻體驗,將是決定產品成功與否的最重要因素之一。在本篇內容中咱們將主要圍繞音頻質量評估的一些重要標準,來說講不一樣評價體系裏的標準、內容、相互關聯和一些我的看法。markdown
在介紹各類評價標準和算法以前,有一個組織必需要重點介紹,ITU (International TelecommunicationUnion) 國際電信聯盟簡稱國際電聯,ITU 是主管信息通訊技術事務的聯合國機構,旗下有一個專門制定電信標準的分支機構 ITU-T(ITU Telecommunication Standardization Sector of ITU)。網絡
提及音頻質量的評價,它並非如今纔出現的。早在電話發明以後,如何系統地評價語音質量就成了一個難題。ITU-T 做爲通訊領域制定標準的權威機構,固然不會坐視無論,因而在 1996 年 8 月 30 日,正式推出了 P.800: Methods for subjective determination of transmission quality 標準。在這個標準裏面有一個重要的指標被提出來,那就是今天被沿用最爲普遍的主觀評價標準 MOS(Mean Opinion Score)。app
有些人可能以爲這個標準好簡單,不就是 1-5 分的打分麼?但是事實上並非,主觀的質量評價要想成爲可重複使用的評價標準是很難的。不一樣環境、心情、知識儲備、職業、聽力範圍及靈敏度等等背景的人均可能會對同一個聲音給予不一樣的評分,甚至一我的在不一樣時間和背景下對於同一段語音質量,也會給予不一樣的主觀評分。因此光有一個 MOS 評分是遠遠不夠的,在標準裏面還推薦了多種可行的測試方案,好比在 Listening-opinion tests 測試方案中給出了"Absolute Category Rating" (ACR) 。裏面規定用短分組的不相關的句子測試,而且這些句子是經過一系列標準測試驗證過的,而後在相同的測試方案下,相同的物理條件和傳輸系統下,來對比測試的結果。這樣測試方案就具有較高程度的結果一致性。而這裏說的物理條件包含很是的細緻,例如測試線材、噪聲(底噪;環境噪聲)、噪聲測量的位置。其中環境噪聲還分爲(房間噪聲、車內噪聲等)。除此之外對噪聲測量的位置、建立鏈接、監聽、儀器設備設計、對話任務等等都有一些建議。框架
說白了,這個標準事無鉅細地列舉了全部可能對主觀評分一致性產生影響的因素,用不少不相關意義的短句組,在實驗室能夠控制的物理條件下,讓不少被測試人員在相同環境下作對比測試,再作平均。這樣的測試才能達到一致性標準,同時也具有了可行性。ide
但同時咱們也發現,組織這樣的一場測試耗時耗力,實在是不適合快速的質量驗證。儘管如此,它對於今天依然很是有意義,好比如今不少產品在通話結束後給用戶的質量反饋打分,1 星到 5 星,雖然不能控制在相同的物理條件下,可是大量的用戶主觀評分機率分佈依然能夠相對客觀地評價產品的主觀質量。佈局
最後,主觀音頻質量評價標準除了給出 MOS 這個有意義的評分標準,還給出了兩個標準 MOSle 和 MOSlp,也很是有參考意義。測試
-MOSle-優化
-MOSlp-編碼
主觀評價體系創建後,因爲其實現起來的高成本和低效率,並不適合企業快速驗證系統的音頻質量,因此客觀標準的需求日益擴大。這個時候須要一個能夠近似人類聽覺體驗的客觀評價體系,而且能作到儘可能穩定。
作一個成熟穩定高度逼近人類聽覺體驗的評價標準很是難,因此客觀標準的制定最初是創建在一套有參考信號的評價體系之上的。也就是評價的時候,同時須要待測信號和參考信號(不通過待測系統只通過測試設備環境迴環的信號)。相較於無參考評價方案,有參考的客觀評價方案更容易作得貼近主觀評價體系。
但即便是有參考估計,想要全面模擬主觀評價也仍是比較難的,隨着算法不斷髮展和完善,評價從只考慮部分指標到考慮更多指標發展。好比在介紹 PESQ 以前,也有一些客觀評價標準被推出,評價有一些侷限性,如:perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者只能用於音頻編碼器的評估,然後者只能評估有限範圍內的失真。
ITU-T 在 2001 年 02 月發佈的 P.862 裏推出了一個新的方法:Perceptual evaluation of speech quality (PESQ),也是在一段時間內,業界普遍使用的方案。標準裏這麼說道:這是多年積累的結果,是一款不只適用於音頻編碼器,同時也適合 end-to-end 測試音頻質量的評估方法。咱們從下面幾個角度談一談 PESQ 吧。
PESQ 如標準的描述,能夠進行端到端的音頻質量測試,把參考信號(Reference speech) line in 傳入發送端(以下圖是一個電話),通過電話網絡到接收端,再 Line out 傳出和直接回環(圖裏叫作參考路徑 Reference path)的參考信號傳入 PESQ 算法進行,有參考評估,最後生成 PESQ score。
須要注意的是,參考信號並不是是隨意選取的,標準對於輸入的參考信號有較嚴格的限制,好比長度:8-30s 的長度,裏面的每一個短句不能低於 3.2s,活動語音的佔比 40%到 80%,語音音量:參考 ITU-T P.56 在-30dBov 同時避免溢出,等等。
標準在 PESQ 算裏面針對多個部分作了詳細的闡述,這裏給出一個簡單的 PESQ 的算法框架以下圖:
簡單來講:Time Alignment 把輸入的活動語音段檢測出來,再進行 delay 計算和語音分段,這個算法是能夠兼容可變 delay 的。而後 PESQ Algorithm 在計算對齊的參考信號和待測信號,獲得它們的頻域的信號進行一些補償後,轉到響度域再根據心理聲學模型,對比兩個信號的感知差別。最後將差別 mapping 到 相似 MOS 分值的 PESQ score,取值範圍在 -0.5 到 4.5。
只用於測量 one-way 語音的失真和噪聲。對於響度下降、時延、回聲等等方面和雙邊交互相關的,都沒法評測。
多數狀況下評分比較符合主觀標準結果,但部分場景下和主觀測試結果有一些差距。評分結果的分佈的聚合性通常。標準裏面也說明了,PESQ 是不能代替主觀測試的,它只是一個具有參考意義的近似主觀體驗客觀評價標準。
隨着時間的發展,更多的適用範圍、更普遍的標準也一一涌現,如 2004 年 P.563 的 3SQM,還有一個就是一直沿用到今天、在有參考客觀音頻質量評價領域最新也是最大範圍被應用的在 P.863 裏出現 POLQA 標準。
POLQA 的測試方案和 PESQ 同樣,也用了參考信號來作對比,測試方案差很少。算法大框架也差距不大,可是用了全新的 Time Alignment 算法和全新的感知模型。這裏就不展開了,給出一個核心模型流程圖(沒有包括 Time Alignment 和 Perceptual Model):
這裏轉載 Pomy 在一份報告裏面描寫關於兩個算法的一些地方的區別:
除了兩個算法外,他還專門組織了"Absolute Category Rating" (ACR)測試,測試了 Human、 POLQA、PESQ 之間的區別,以下圖:
總的來講,POLQA 不只支持全頻帶評測,還增長了對響度變化的評估,全新的感知模型評價體系使得 POLQA 和主觀評測的結果更加接近。
前面介紹了主觀音頻質量評測標準和客觀有參考音頻質量評測標準,特別是當有了客觀的有參考音頻質量評價標準,企業能夠很方便地測試系統的端到端音頻質量,雖然不能徹底取代主觀測試,可隨着標準的更新,客觀有參考評價標準會愈來愈接近主觀評價且愈來愈穩定。可是不少企業也發現,即便有端到端的客觀有參考評價標準,依然很難解決線上音頻質量的實時監控。有沒有一種指標能夠在不須要參考信號的狀況下,在某種程度上反應出主觀音頻質量的變化呢?
ITU-T 在 2015 年 6 月發佈了 G.107,給出了一種計算模型專門評估端到端傳輸的音頻質量評估,其算法模型叫 E-model。
E-model 是在一個評估音頻設備損傷叫作」Voice Transmission Quality from Mouth to Ear」的模型基礎上衍生出來的。E-model 會把通話中發送端和接收端當成嘴到耳朵的評估,把通話分紅髮送端和接收端,而後把能考慮到一些能夠量化的、對於聲音質量有影響的因素都參考進來。以下圖:
其中 OLR:Overall Loudness Rating,SLR:Receive Loudness Rating, RLR:Receive Loudness Rating。E-model 的傳輸損傷等級因子 R 的公式爲:
其中:
R0:基礎信號比
IS:傳輸時產生的同步損傷,由量化,鏈接等因素影響
ID:傳輸的時延損傷
Ie-eff:設備損傷係數
A:優點係數(和其餘全部的傳輸參數都沒有關係的)
每一個數值的計算都比較複雜,且參數較多,這裏就不一一展開了。
G.107 給咱們帶來一套複雜的、完善度也相對較高的評估模型 E-model,這個模型在沒有參考信號的狀況下,把對於語音質量有影響的不少因子都考慮進去了。先不說能不能徹底靠近主觀測試的評價體系,對於企業的線上實時音頻質量監控也具有很大的指導意義。另外也有人提供了一些改良方案,例如加入網絡 jitter 的係數對評價結果產生影響,固然是否是合適也須要在實踐中驗證了。
以上介紹了一個音頻質量主觀評價標準以及兩個音頻質量客觀有參考評估標準,以及一個音頻質量客觀無參考的評價標準。值得再次申明的是,客觀評價標準是不能代替主觀標準的。雖然隨着算法的提高,它愈來愈接近主觀評價,但在實際問題的優化中,主觀的聽感是不能代替的。當主觀聽感感覺和客觀指標產生了差別,既不能盲目相信少數人的少次測試聽感結果,也不用盲目迷信客觀標準,陷入了削足適履局面。
關注咱們,咱們將爲你們持續分享更多關於音視頻的技術乾貨、技術探索及最佳實踐。
拍樂雲成立於 2019 年,是國內第一家視頻會議背景的實時互動通訊雲服務提供商,匯聚了一大批專一於音頻、視頻、網絡、AI 等領域的資深技術專家。經過 Pano SDK,企業開發者便可在全球範圍內快速實現互動課堂、語音聊天室、視頻社交、直播連麥、遊戲語音、視頻客服、遠程醫療、辦公協做等場景。