線上會議、在線教育、電商直播等多個場景的興起,也使得實時互動技術從幕後走到臺前,獲得了更多人的關注。編解碼、網絡傳輸、計算機視覺等 RTE 相關的一系列技術也正煥發出更強的生命力。2021 年,在深度學習、5G 等技術的加持下,RTE 會進一步催生哪些可能?前端
聲網Agora 開發者社區聯合 InfoQ 共同策劃,邀請了聲網Agora 開發者社區中的多位技術專家,從視頻傳輸、計算機視覺、編解碼標準發展、WebRTC、機器學習、音頻技術等角度,共同撰寫「2021 實時互動技術展望系列」,一窺技術新趨勢。本文源於對聲網Agora 音頻體驗與工程總監陳若非的採訪。本系列內容由聲網 Agora 開發者社區 與 InfoQ 聯合策劃,並由 InfoQ 審校,首發於 InfoQ。算法
音頻技術中有不少細節會影響到實時互動的體驗。隨着技術和應用場景的變化,音頻也正在與更多的學科、技術結合。在實時互動場景下,哪些因素會影響音頻的體驗?相比於視頻技術,音頻技術是否發展較慢?面向 RTC 場景,音頻技術又須要做出哪些改變?......爲了解答這些問題,咱們採訪了聲網 Agora 音頻體驗與工程總監陳若非,請他來聊一聊在實時互動場景下音頻技術的變遷與機遇。markdown
陳若非:聲音是信息和情感傳遞的載體,因此音頻相關的研究基本會圍繞如何讓信息和情感更好的被傳遞和感知理解展開的。音頻領域相對專業細分,可是咱們細挖一下就會發現音頻相關的研究方向其實不少,涉及到的交叉學科也很廣。從交互對象來講咱們能夠分爲兩類:人機交互的音頻和人人交互的音頻。從交互的實時性來分,又能夠分紅實時的交互和非實時的交互。人機交互主要研究如何讓機器更好的理解聲音和生成聲音,經過 ASR、MIR、TTS 等技術來實現人類但願機器完成的任務。人人交互的部分更多和人的感知系統關聯,其優化目標會圍繞如何讓人更好的感知音頻來展開。實時的人人音頻交互又在此基礎上提出了更多的約束條件,優化須要用更低的延時、更小的計算量和因果系統下展開。我所在的聲網就主要聚焦於實時互動音頻領域的研究,因此咱們會從採集播放、編解碼、先後處理、傳輸的全鏈路去研究如何在儘量低的延時和計算量下提供更好的音頻互動體驗。網絡
陳若非:實時互動音頻是端到端,嘴到耳的體驗,因此全鏈路上全部的組成部分都有可能影響音頻體驗。咱們能夠從採、播、濾、壓、傳五個方面去分解技術對音頻體驗的影響。首先說採集,不一樣麥克風的聲學屬性差別就對音頻體驗有決定性的影響,從拾音的距離,方向性到精度。被拾取的聲音信號通過模數轉換,信號採樣也會形成聲音的損失,採樣率越高聲音的細節就會保留的更好。因此一個高質量的麥克風會從源頭上提供更好的音頻源。相似的,一個高質量的播放設備能夠更好的保留更多聲音細節。而後先後處理是音頻鏈路上很是重要的一環,你們常聽到的 3A 技術都屬於這個範疇,先後處理對原始採集的信號或者即將要播放的信號作二次處理,來濾除其中的干擾信號,好比回聲、噪音、雜音、嘯叫等,同時對目標的音頻作音量和聽感上的加強。另外在一些音效玩法裏,咱們也會經過對信號的處理實現變聲、美聲等特定聲音效果。再說下編解碼和傳輸,這二者是強耦合的。原理上編碼的採樣率和碼率越高,聲音的保真度就更好,聽端的體驗也更好。但現實中網絡的帶寬是有限制的,還會常常出現丟包抖動等不利狀況。好的編解碼算法能夠經過對聲學模型和信息冗餘的深刻理解,在相對低的碼率下實現高品質的聲音保留,從而保證在各類弱網狀況下的穩定表現。同時咱們也須要經過開發信源信道的弱網對抗技術,在保證低延時的基礎上,減小丟包抖動帶來的聽感影響。架構
陳若非:技術的進步都是需求推進的。電話時代的音頻技術曾經經歷火熱的發展,一些經典理論如線性預測、自適應濾波,很好的解決了一些基礎可用的問題,不少技術到今天還在被沿用。近幾十年 VoIP 的技術也獲得了長足的發展,咱們今天看到 VoIP 的分鐘數能在通訊領域佔據愈來愈大的份額,背後也離不開音頻研究人員長期的紮實工做和持續進步。音頻須要較高的技術門檻,全鏈路的木桶效應明顯,設備耦合重碎片化嚴重,改進主觀不易被感知,這些因素都決定了音頻想要出成果須要坐的住冷板凳,須要長期主義的堅持。機器學習
近些年 AI 技術的興起給音頻注入了新的活力,也給不少長時間很差解決的問題提供了新的思路。人機語音交互成爲了一個音頻領域新的熱點,相關的技術也蓬勃發展,目前在識別、合成等領域都取得了長足的進步。而在最近的幾年,也看到了很多 AI 技術和 RTC 領域結合的實踐成果,讓人看到了進一步提高音頻體驗的巨大空間。從外部環境來看,在看膩了千人一面的直播後,愈來愈多的人開始喜歡心理包袱更小,想象空間更大的音頻社交,近期的行業裏也開始出現新的浪潮。相信在這種內外因的結合下,會有更多的人開始研究實時互動音頻的體驗,也很是期待這個行業會給你們帶來不同的新體驗。學習
陳若非:實時互動音頻領域還有不少技術挑戰須要咱們的攻克。我這裏提兩個大點。第一,碎片化。傳統的手機廠商是一臺臺調試算法和逐一經過聲學測試出廠的。若是咱們要在不一樣設備、環境、網絡條件下提供一致性的高質量音頻體驗,咱們就須要尋找新的突破。在接下來萬物互聯的時代,這種需求會越發強烈,而這方面技術的突破會帶來巨大的價值。第二,主觀性。音頻體驗是一個很是主觀的存在,每一個人的感知差別和喜愛也迥異。咱們須要找到更好的方法來匹配這種個性化的喜愛和提供更好的量化評價體系。測試
陳若非:我認爲實時互動音頻的將來應該有下面三個部分。第一,AI 和信號處理的深度融合。經典的信號處理和聲學模型已經能幫咱們解決不少問題,固然也很多解決很差的問題。在 AI 的有效融合下,能夠有效的補充傳統算法的不足,在合理的代價下更好的解決咱們的問題,而非簡單視 AI 爲靈丹妙藥包治百病。第二,符合時代的評價標準。目前不少音頻標準是給通信設計的,真正如聚一堂的互動體驗須要對應的評價標準,如何更好的評價互動性,沉浸感是咱們須要去探索的地方。第三,真正的沉浸感和伴隨感。人們開始不知足於單純的信息交互,進一步的追求面對面的互動體驗和情感伴隨,而隨着網絡和設備條件的進一步成熟,這種將來也成爲可能。音頻全鏈路都須要升級,從聲場的採集到還原,甚至加強現實,來創造出真正沉浸式伴隨的體驗,這也會將會是一條漫長的探索之路。咱們在聲網一直致力於探索這些終年存在的行業難題,也歡迎各路有想法有追求的朋友聯繫我,共同交流探索,共同敲開將來音頻之門。優化