用 WebRTC 打造一個音樂教育 App，要解決哪些音質難題？

時間 2021-04-02

標籤 android ios 算法框架 ide 測試優化阿里雲編碼視頻欄目應用數學简体版

原文原文鏈接

在去年疫情期間，在線教育行業得到了井噴式的發展，這背後的技術功臣非 RTC 莫屬。本文將分享 RTC 技術在音樂教育場景下的實踐經驗。android

做者｜逸城
審校｜泰一ios

音樂教育場景 - 在線陪練

2020 年的新冠疫情改變了在線教育中素質教育行業的生態，音樂陪練是其中的典型場景。衆多線下琴行因沒法承擔高昂的租金關門，在線音樂教育平臺用戶激增，這其中的表明有 The One、VIP 陪練、快陪練、美悅陪練、音樂筆記等。根據公開信息，目前 VIP 陪練的日上課量達到 3 萬節，快陪練在 2020 年 10 月用戶突破 120 萬。有投資機構指出，到 2022 年，音樂教育市場預計達 4000 多億元規模，而在線陪練市場的需求近千億元。

可是打造一款傳遞高音質的陪練 App 並不是易事，在實際開發過程當中音樂陪練類 App 相比普通在線教育 App 的音質的要求更高，下面我將以鋼琴教育爲例，從技術角度來分析 WebRTC 在樂器教育場景下遇到的問題以及解決方案。算法

樂器類頻譜

以鋼琴類爲例，頻譜主要集中在 5KHz 如下，下圖是一段 44.1khz 採樣率的鋼琴曲的音樂通過 FFmpeg 解碼後的頻譜圖，從下圖能夠看到，考慮到實際錄音場景可能存在高頻諧波或者其餘環境音的影響，頻率範圍集中在 7kHz 如下頻段：
框架

音質影響因素分析

錄音

WebRTC 在音頻採集後的前處理流程是：record->ans->aec->agc。咱們先分析第一個環節，錄音的影響。下面測試基於 Andorid 手機播放鋼琴曲，手機距離 Mac 電腦 15cm 左右，在單講模式下，原始鋼琴曲頻譜以下：

通過錄音後的頻譜以下：

圖中 400Hz 如下的頻譜基本損失殆盡，考慮到聲音從手機播放，通過手機揚聲器，空氣傳輸，再通過對端 mic 接收，與真實鋼琴教育場景不太同樣，因此咱們錄製了一段真實鋼琴教育的語料以下：ide

能夠看出真實的鋼琴教育錄音下頻譜保真度仍是與手機播放再錄製有差別的，所以錄音的因素在真實鋼琴場景能夠暫不考慮。
測試

3A 算法

單講狀況下（aec 未生效）：錄音音頻：

通過 ans 後頻譜：

結論：通過 ans 後頻率有較大損失，中高頻部分損失較爲嚴重。優化

雙講狀況下（通過 ans 和 aec）：
ans 後頻譜（遠端有人說話）：

aec 後頻譜:

雙講狀況對音樂損失也很大，重點是 aec 模塊損失大。阿里雲

編解碼器

Opus 是由 SILK+CELT 混合的編碼器，學術上的叫法叫作 USAC，Unify Speech and Audio Coding，不區分音樂語音的編解碼器。這個編解碼器內有個 Music detector 去判斷當前幀是語音仍是音樂，語音選擇 silk 框架編碼，音樂選擇 celt 框架編碼，一般建議不限制編碼器固定採用哪一種模式編碼。編碼

目前 WebRTC 採用 Application 是 kvoip，默認開啓混合編碼模式，並未限制固定是 celt only 或者 silk only 模式。
編碼器內混合編碼模式下的音樂與語音編碼算法判決：

測試語料：

選擇音樂模式編碼 + 混合編碼後：

選擇語音編碼 + 混合編碼模式後：

測試反饋顯示音樂編碼的狀況下切換 silk 模式很靈敏，可是若是採用 VoIP 模式下對音樂切換不夠靈敏，會出現語音後對音樂下延遲爲 silk 編碼的狀況；所以，語音編碼後的幾秒種內 silk 編碼對高頻部分略有損失，相比 celt 編碼略差。視頻

小結

綜上所述，影響鋼琴教育音質的因素主要是降噪模塊和回聲消除模塊。

鋼琴教育場景下的技術方案

完整的解決方案須要考慮鋼琴教育場景下語音和音樂共存的狀況，須要對當前的語音幀作模式判別，識別是語音仍是音樂，若是是語音幀則走正常的 3A 處理流程，若是是音樂幀則須要調整 3A 的算法，最大限度保證音樂的完整性。
大體流程圖以下：

總結

基於 WebRTC 的音樂教育場景的工程化實踐有很多細節須要考慮，從音頻信號的採集，到 3A 的適配，再到音頻編碼器的參數調整，都須要作針對性調優，才能最大限度的作到既能保證語音信號的清晰可辨，又能保證音樂信號的細節豐富而不失真。另外，隨着在線教育細分市場的不斷成熟，針對部分特殊樂器好比打擊類樂器的場景，又會帶來新的技術難點，須要 RTC 進一步探索優化。