網易雲信實時音頻框架背後:算法優化帶來產品體驗全面提高

2018年10月19日,LiveVideoStackCon音視頻技術大會在北京召開。本屆會議以「技術開啓新‘視’界」爲主題,聚集資深的音視頻技術工程師,探討在音頻、視頻、圖像等技術的實踐與思考。 網易雲信資深音頻算法工程師李備在教育專場中的主題演講上,分享了軟件層實時音頻解決方案中,網易雲信NRTC針對WebRTC 源生算法不足的優化,以及在音樂內容特殊場景下的新思考。
李備演講現場圖片

火爆的市場衍生更豐富的音視頻應用場景

互聯網產品對實時音視頻技術的需求正在各個千億、百億規模的市場中爆發,並逐漸成爲基礎設施型的重要技術。李備認爲,隨着將來更多可玩性的開發被挖掘,音視頻的應用仍有很大增加空間。此外,實時音視頻技術助推了互聯網產品的創新和進化,賦予了產品以更豐富、更高效的場景表達,也促進了實時音視頻技術自身的進化。
實時音視頻技術須要與行業和應用場景緊密結合。當前及將來,客戶的核心訴求除了對穩定高效等技術性能的要求以外,個性化的需求也在增長。李備介紹,網易雲信基於自研的全功能工業級的音視頻技術框架NRTC,進行了諸多場景化和針對性的技術優化,造成了對實時音頻應用的觀察與思考。

網易雲信NRTC優化算法,彌補WebRTC源生算法的侷限

李備強調,儘管當前針對通常行業的軟件層實時音頻框架已經日益成熟,但仍然有兩個較明顯的痛點須要解決:一是在複雜變化的網絡情況中,由於信號弱或者網路擁塞而形成的延時或丟包現象;二是隨着終端種類和應用場景跨度的增長,不一樣類型終端設備和使用環境的巨大差別對總體解決方案的適配度提出了更高的要求。通常行業基於交流的目的,在對於實時音頻的諸多需求中,首先看重框架的流暢性,低延時、音量足夠大的同時沒有明顯的回聲、噪聲和雜音。在知足以上需求以外,最後纔會去關注音質、雙講體驗以及其餘性能。
那麼一個解決以上痛點穩定運轉的音頻框架該如何設計?以WEBRTC的音頻框架圖爲例:

WebRTC的線程模型與數據驅動方式,不一樣顏色表示不一樣線程,藍色箭頭表現數據驅動方式


但每一個模塊爲了保障實時音頻的穩定都有不少方面的問題須要注意,例如採集回聲非線性、音量大小,以及delay中系統內在延遲的大小與變化等,都是平臺下音頻採集和播放的常見問題。
因爲音頻前處理的挑戰及WebRTC 源生算法的一些不足等緣由,須要技術人員進一步優化以提高整個框架的技術表現,確保終端用戶的產品體驗。網易雲信的全功能工業級的音視頻技術框架NRTC針對這些不足作了一系列的優化。好比,採集回聲的非線性是目前線上採集面臨的廣泛問題,其穩定性會直接影響回聲的消除和處理效果。WebRTC在這方面的不足使得一些廠商爲了服務回聲消除,不得不以下降音量爲代價。針對源生WebRTC Delay Estimation 的穩定性問題,網易雲信的NRTC將遠端和近段的delay進行了對齊優化,提高了總體框架消除回聲、雜音和降噪方面的性能。
再譬如,對於用戶在溝通中產生的氣聲的採集和處理,也是音頻框架面臨的廣泛難點之一。由於氣聲發音能量低,回聲大,並且能量集中在中高頻,因此正常算法沒法知足處理需求。以源生WebRTC AEC 和NRTC 在iPhone6P氣音發音下的表現進行對比,經NRTC框架進行算法優化後的效果明顯更優。
源生WebRTC AEC VS NRTC 在iphone6p 氣音發音下的表現

網易雲信針對音樂場景下實時音頻解決方案如何取捨的新思考

除了通常性溝通場景下的音視頻應用,音樂內容及其應用場景對技術有更爲特殊的要求。李備介紹,與普通場景相比,音樂內容場景對聲音的要求存在較大差別。譬如,人耳對於音樂的感知是更加敏感的,稍有音質的降低人耳就能察覺,這對於聲音處理提出了更高的要求。而相對於以交流爲目的通常場景,音樂內容對實時音頻技術要求的優先級也有所不一樣:穩定和音質成爲第一訴求,降噪和低延遲降級爲次要需求。
因爲音樂內容場景的上述特殊性,通常的實時音頻框架在音樂內容場景下便會呈現某些侷限性。好比,適用於通常場景的音頻框架的低採樣率、非全頻段處理、對近端聲音和對雙講的粗糙處理、碼率設置較低、簡單的Audio QoS都不足以支撐音樂內容的特殊場景。再如,在採用更高碼率的狀況下,若是還沿用通常的策略,便會形成比較嚴重的擁塞或丟包。那麼,面對這些新的需求、痛點和侷限性,在資源有限的狀況下如何取捨,李備分享了網易雲信的四點新思考:
  • AGC(auto gain control) 在音樂內容下新需求——由於音樂場景下有情感投入的特殊需求,好比在情感舒緩的時候音量較低,在情感猛烈時音量較高。所以,若是在AGC算法中對能量進行相近處理,對於音樂內容的傳輸是很是大的傷害;
  • Howling Control 在音樂場景下的危害——在對音樂demo處理時,若是對某個頻段的回聲作過度的消除處理,會對人的聽覺感覺形成很大影響;
  • NS(Noise Suppression)在音樂內容下的痛處——有些音樂場景樂器衆多,NS處理會對某些聲音形成必定的損傷。爲了追求對原聲的極致體驗,有些工程師乾脆關閉NS模塊,寧願忍受噪聲,也不肯損失音樂效果。李備介紹,網易雲信深知這一技術問題給產品和用戶形成的困擾,在實踐中不斷優化本身的NS算法,力爭給到客戶更好的技術服務;
  • TSM(Time Scale Modification)在音樂場景下的影響——若是將用於通常場景的TSM算法直接照搬到音樂內容場景下,會致使音樂內容在傳輸時節拍的變化,因此須要作出專門適配音樂場景的TSM算法。
「在垂直領域愈發豐富的今天,針對不一樣的場景,對策略進行調整,是每一個底層技術提供商應該思考的問題,也是網易雲信一直努力的方向。」李備總結道。讓技術匹配客戶,讓服務更加細緻,既是整個行業生態追求的結果,也是推進行業生態進步的動力。

另外,想要獲取更多產品乾貨、技術乾貨,記得關注 網易雲信博客
相關文章
相關標籤/搜索