10 月 24 日,RTC 2019第五屆實時互聯網大會在北京悠唐皇冠假日酒店如期舉行。在大會上,聲網Agora正式宣佈開源聲網自研抗丟包音頻編解碼器Agora SOLO。git
目前,編解碼器的源代碼已經開源在 Github : github.com/AgoraIO-Com…github
在近些年比較火的應用場景有這麼幾類:遊戲,好比多人在線對戰遊戲、狼人殺等,多人組隊,還須要實時語音;互動直播,好比主播與觀衆連麥、主播與其餘主播進行跨直播間連麥,須要實時的互動;在線教育,其中有不少細分的場景,1 對 一、1 對多、雙師等,在當前互動網絡教育中最難解決的問題仍是實時性,就是老師跟學生怎麼可以更好的互動。算法
以上這些實時互動場景,在當前網絡環境下,給技術提出了更高的要求,既要低延時,又要實現高質量的音視頻互動。可是,若是承載信息的包沒有按時到達,即出現丟包,就會產生聲音斷斷續續、音質低等狀況,直接影響實時互動的質量。然而,傳統的抗丟包策略不是會浪費帶寬,就是會影響音頻質量,因此咱們結合信源和信道編碼的特色,利用充分包交換網絡的特性,基於此,研發出了聲網新的編解碼器——Agora SOLO。網絡
Agora SOLO(如下簡稱「SOLO」)是由聲網Agora自主研發的一款面向不穩定網絡的音頻編解碼器,它以 Silk 爲基礎,融合了帶寬擴展(BWE)和多描述編碼(MDC)等技術,使其能在較低複雜度下擁有弱網對抗能力。SOLO 編解碼器兼容WebRTC,可集成到基於 WebRTC 自主研發的產品中。架構
SOLO的抗丟包策略與傳統方法不一樣。從通訊原理來講,信源編碼是儘量去追求高壓縮比,去冗餘。而信道編碼是追求強糾錯,靠加冗餘來實現糾錯。Agora SOLO 就是把加冗餘和減冗餘結合起來,不重要的地方減冗餘,重要的地方加冗餘。性能
在傳輸過程當中,它會將一個包拆分爲兩個進行傳輸,若是對端收到其中一個,則解碼恢復出一個有限失真的信號;若是對端收到兩個包,則可解碼恢復出一個高質量的信號。即 SOLO 不須要等待對當前網絡丟包狀態的統計,只須要直接把抗丟包作到編解碼內部。好處有三點:1.可實現更低延時;2.可實現更高質量,當收到一個包時質量達到的普通編解碼器水平,收到兩個包達到高質量編解碼水平;3. 可面向多人環境。編碼
SOLO 使用帶寬擴展的主要緣由是但願減小計算複雜度,在 Silk WB 模式中,16khz 的信號都會進入後續處理模塊,而對於語音來講,8khz 以上的信息是很是少的,這部分信息進入到後續處理模塊,會帶來必定的計算資源浪費。MDC 由於要引入額外分析模塊處理多條碼流,又會引入額外的複雜度,這是 MDC 在近些年來落地不暢的重要緣由之一。爲了減小複雜度,咱們在編碼寬帶信號前,將其分爲 0-8k 的窄帶信息和 8-16k 的高頻信息。只有窄帶信息會進入到後續正常分析、編碼流程中,這樣後續的計算量就減小了一半,同時得益於帶寬擴展算法,總體質量不會有明顯降低。高頻信息部分,SOLO 使用獨立的分析與編碼模塊,默認將高頻信息壓縮成 1.6kbps 的碼流。這部分高頻信息能夠在解碼器內結合低頻信號恢復出高頻信號。cdn
在 Silk 中,delay-decision 模塊是一個滯後計算編碼偏差的模塊,它能夠從多個候選碼流中選擇偏差最小的碼流做爲編碼輸出,必定程度上來講,它使得標量量化擁有了矢量量化的性能。SOLO 利用 delay-decision 模塊,實現了多描述碼流的分析與構建。SOLO 的MDC主要做用於濾波器輸出的殘差信號, SOLO 會根據當前信號狀態,對殘差信號作多增益控制:計算出 MD 增益 a(0<a<1),將 a 做用於奇數子幀,並將(1-a)做用於偶數子幀以產生兩段互補的殘差信號,這裏記做 residual 1 和 residual 2。視頻
隨後,這兩段殘差信號會進入到新的 delay-decision 模塊中,每一個殘差信號使用不一樣的抖動和量化方法,一共能夠產生 8 種不一樣的備選狀態,兩兩組合起來共有 64 種備選合成狀態,新的 delay-decision 模塊會對每一個殘差信號的獨立偏差和兩個殘差信號的合成偏差進行加權求和,決定出最佳的兩個殘差信號進入到編碼模塊。blog
SOLO 默認配置爲每次輸入 40ms(2 幀),輸出兩段互補的多描述碼流,解碼器接收到任一段碼流,便可解碼出 40ms 的信號。爲了方便接收端區分碼流的順序,碼流第一個字節的右數第 4 個 bit 是碼流順序標誌位,第一段碼流標誌位的值是 0,第二段碼流標誌位的值是 1。接收端在進行碼流處理時,可依據此標誌位進行碼流順序判斷。
集成方法已經詳細寫在 Github 中。固然,若是你對於SOLO 有任何疑問,歡迎在 RTC 開發者社區中討論。