沉浸式音頻技術近年來逐漸擴大其應用範圍,常見應用於VR,影視,會議等場景。本文由時代拓靈創始人&CEO,孫學京博士LiveVideoStack線上分享的內容整理而成,從聲場採集,傳輸,渲染播放算法以及軟硬件等方面詳細介紹了沉浸式音頻技術的發展與應用。算法
文 / 孫學京架構
整理 / LiveVideoStackide
你們好,我是來自時代拓靈的孫學京。本次分享將主要介紹沉浸式音頻的從採集製做一直到播放整個鏈條上所須要的一些軟件和硬件的技術。函數
內容能夠分爲如下五個方面:工具
1. 沉浸式音頻簡介優化
2. 聲場採集技術,硬件和軟件編碼
3. 製做、存儲、傳輸插件
4. 渲染播放設計
5. 行業現狀和相關應用視頻
1. 沉浸式音頻簡介
1.1 什麼是沉浸式音頻?
什麼是沉浸式音頻?你們最近可能常常聽到「沉浸式音頻」,「全景聲」這兩個名詞,那麼它們與以前的環繞聲或者3D音頻有什麼本質的區別嗎?
通俗地講,它們之間可能有不少的類似之處。但就技術層面來講,從底層架構,到最終的展示形式都有很是大的變化。
首先咱們把傳統的5.1音頻擴展爲不只包含聲道也包含對象和場景。目前,沉浸式音頻類型主要分爲三大類:基於聲道Channel based audio (CBA)、基於對象Object-based audio (OBA)、基於場景Scene-based Audio (SBA)。
目前市面上一些主流的系統主要是Dolby Atmos、MPEG-H以及影視行業的SMPTE 2098協議。其主體仍是基於Dolby Atmos,但同時它還容許其它不一樣標準被兼容在此協議內,也就是說Dolby Atmos某種意義上是SMPTE 2098的一個子集,咱們能夠在兼容Dolby Atmos的同時,推出本身的標準。所以我相信,接下來沉浸式音頻未來會迎來一個很是大的利好。
1.2 沉浸式音頻-傳統到3D音效
基於揚聲器的沉浸式音頻,常見的是5.1或7.1,若是是耳機設備,則會有HRTF雙耳3D環繞的音頻。5.1音頻其實是固定的聲道位置,由左前、右前、左後、右後構成,而7.1就是在5.1基礎上再加兩個背後的聲道位置,.1就是低頻通道的意思。
目前新的沉浸式音頻,再也不侷限於平面式的聲道,進一步支持全面360度*360度的沉浸式音頻(支持高度)。例如影院的杜比影廳,頂部都會布有不少的喇叭;若是是家庭的話,咱們常常叫作5.1.2,就是在頂上再設置兩個音箱,或者7.1.4就是在頂上再設置4個音箱。
真正想要達到一個很是好的沉浸式效果,頂部的高度信息帶來的對人的感官衝擊感是很是強烈的,好比下雨或者打雷的聲音。即便在平時可能感受不到很明顯的差異,但當你真的專一於音頻效果時,增長了高度信息的音頻感受就會很是震撼。
這種變革若是停留在傳統的5.1格式上是很難實現的。儘管傳統的作法經過布多層的方式也能夠模擬出高度信息,可是並無從根本上,即製做混音端來改變底層的架構。所以,高度信息的增長其實是對影視行業沉浸式音頻製做的巨大改變。加入高度信息的音頻會有很高的沉浸感,而且底層的渲染技術比傳統的5.1混音要複雜不少,方位的渲染精度也會大大的提高,因此總體的渲染質感有很大的提高。另外,近幾年在AR或者VR時代,很是強調交互的特性。好比VR頭顯設備的頭部跟蹤、旋轉,不只要旋轉視頻,同時還須要旋轉聲場。這些都是傳統的5.1音頻(事先混音)很難實現的,而新的渲染技術,沉浸式音頻架構是能夠實現的。
至於其它的應用方面,在看電視節目的時候,沉浸式音頻還能夠靈活的根據不一樣的場合控制選擇不一樣的語言,選擇聲場中不一樣的方位進行體驗等。這些都是經過傳輸一個對象或者傳輸一個聲場的概念來實現的,而傳統的5.1或者立體聲傳輸是沒辦法實現的(沒法實現單音軌分離)。
最後一點,製做與播放設備的分離。不管是5.1音箱、立體聲耳機或是其它設備,其中的混音都由渲染引擎中的軟件算法來實現。在製做的時候,如圖,混音師就會假想出一個球形的空間場景,也就再也不徹底依賴必須有一個5.1的混音廳才能將聲音混好,而且完成一次混音就能夠在任何地方進行播放。
1.3 Object Audio
DolbyAtmos的混音界面如圖右下角所示,是一個模擬電影院的方盒子,屏幕在前方。其中小球表明的是音頻對象,其在三維空間中會有一個運動的軌跡。混音師會戴耳機或者經過本身的混音環境來體驗混音(音頻對象)的軌跡,但實際最終播放的時候有多是一個5.1或者7.1.4的混音環境,這個是由渲染引擎來完成的。
對象音頻是如今比較流行,而且逐漸佔據主流的。其源自於遊戲,杜比做爲一個商業公司將對象音頻完全商業化推行到影院中,並進行了許多商業算法上的創新,解決了不少複雜的場景問題。
對象音頻的一項核心組成部分就是元數據,咱們其實是經過位置、擴展度或者運動特性等來描述對象音頻,這些元數據都要傳輸到渲染端,同時會進行一些編碼壓縮操做。對象音頻的渲染方法通常是基於Panning,就是聲音如何經過幅值、相位的關係在多個喇叭或者耳機裏產生必定的方位感。
1.4 Scene-Based Audio
Scene-Based Audio主要是以MPEG-H爲表明(實際指MPEG-H中Scene-Based Audio部分所佔比例較高)。Scene-Based Audio主要是用來描述場景的聲場,其核心的底層算法是HigherOrder Ambisonic(HOA),所以一些新的沉浸式音頻的底層技術也不徹底是新的,算法以及新的技術都是漸進的,近幾年隨着帶寬的加大,隨着複雜度即算力的加強,以及AR、VR新的交互方式的產生促進了技術的迅猛提高。Ambisonic也煥發了青春,VR成功將其帶到了大衆的面前。Ambisonic 描述三維空間中的聲場,例如一階Ambisonic更多的是經過極座標。
一階Ambisonics :FOA
Ambisonics 中存在一種階的概念,一階Ambisonics咱們稱之爲FOA(First-Order Ambisonics),零階即沒有任何方向,也就是全向麥克風來描述聲場。一般狀況下,在Ambisonic中B格式爲中間格式,聲場採集設備獲得的原始信號爲A格式。爲了便於後續的運算,不管麥克風是什麼樣子,一般都會轉化爲通用格式即B格式。
如圖,X表明一個點元,經過Ambisonic的(W,X,Y,Z)表示,將其映射到一個聲場中是很是簡單的,主要是應用了三角函數進行一系列公式的計算。將其通用化後在高階時的表現即爲球面諧波函數。
高階Ambisonics :HOA
描述聲場其實就是經過物理學的球面諧波函數來描述聲波在空間中的傳播,存在很是高的階數,如以前提到的零階、一階函數,甚至三階函數(右下角圖)。
2. 聲場採集技術
2.1 雙耳錄音
接下來介紹聲場採集技術,在音頻平臺中比較常見的有雙耳錄音,模仿人類大腦工做方式,模擬人左/右耳聽到的聲音。常見的使用工具爲3Dio人工頭麥克風。
上圖爲VR時代,3Dio的升級(複雜)版本,適合於四個方向的Omni Binaural Microphone。Binaural錄音能夠理解爲聲場採集的上限,拋開人耳個性化的差別,達到的仿真效果要比HRTF等要好得多。這個錄音的輸出格式一般叫做Quad Binaural (QB)。
2.2 Ambisonic 錄音
Ambisonic 聲場錄音的優點是更加靈活,經過錄音設備獲得的Ambisonic信號,能夠直接作不少的後續處理。可是若是用Ambisonic信號轉成Binaural,效果在某一點上會遜色於Binaural信號。咱們也曾作過一些比較,若是是用於VR 360度的聲場採集,與Omni Binaural錄音或者QB格式相比,Ambisonic錄音總體表現會比較平均,也就是最好方向比QB差,但也會比QB最差的方向要好一些。
有關聲場採集的算法以及麥克風的設備,相對來講比較複雜。簡單地說,與其它設備的麥克風陣列使用相似,都有一樣的需求:核心參數有信噪比、一致性、靈敏度、頻響;選擇MEMS麥克風仍是ECM麥克風。早期通常會選擇ECM,但ECM的一致性稍差,因此比較貴的麥克風出場時都會自帶匹配的校準參數。目前新的麥克風更多的是MEMS,一致性相對較好,能夠達到,能夠知足不少需求。Ambisonic聲場採集獲得的陣列信號,在剛性球體上,能夠近似的用剛性球體球面諧波函數,把傳感器獲得的信號轉成球面諧波函數的一些係數來表示,而後針對係數進行後續的聲場的旋轉等操做。
3. 沉浸式音頻的製做,存儲,傳輸
那麼,有了沉浸式音頻聲場的採集,以後應該如何進行進行製做?目前主流的工具Pro Tools、Reaper、Nuendo都是在影視行業比較經常使用的。主流的Pro Tools目前已經全面支持Dolby Atmos,也能夠支持一些高階的HOA;Reaper由於其功能強大,價格便宜,性價比高,被愈來愈多的音頻行業人士所喜好。
以上提到的咱們稱爲音頻工做站,實際上大部分的工做仍是經過插件來完成的,工做站完成主流的工做,靠插件來完成具體的如混響算法或者VR相關的一些工做。常見的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。
圖爲時代拓靈公司的插件,叫作Twirling Works,最初是爲了VR製做來設計的。
多通道音頻壓縮通常是經過提取相位差、幅值差等一些Parametric Stereo,多通道一般選擇降維或者去相關的方式。
MPEG-H HOA編碼的核心是其中的HOA Decomposition部分,將有方向的,細節部分的信號取出來。將無方向的,環境聲音信號分離開。
HOA的優點是存在分層的編碼機制,若是在帶寬精度要求不高,帶寬不夠的時候,能夠傳輸輸入較少的低階信號,若是帶寬足夠的話,則能夠傳輸高階信號。
對象音頻的編碼主要是來自杜比的科學家的貢獻,首先是兼容5.1開發了Joint object coding(JOC),能夠將多個對象音頻下混到5.1聲道,經過傳統的5.1通道,生成的信號能夠被5.1解碼器很好的兼容播放。而且若是同時支持對象音頻,就能夠將其還原成爲支持Dolby Atmos的沉浸式音頻。Spatial coding能夠理解爲是在JOC之上的前處理,面向更多的對象,能夠經過一些準則如:對象的重要性,能量等對多個對象作聚類。
4. 渲染與播放
渲染與播放是很是關鍵的一個部分,渲染的方式一般叫作Panning,在三維空間中的渲染方式稱爲Vector-based Amplitude Panning。
HOA的渲染相對更復雜一些,主要須要考慮的是如何將不一樣的HOA的信息給到不一樣的喇叭。
以上是優化HOA decoding所使用的準則之一Max rE。
以上是Decoding的幾種不一樣方式,傳統的主要Sampling or projection decoding和Mode-matchingdecoding兩種;此外,還有一些新的進展,儘量的使得渲染更均勻,最大程度保證音質不受損。
5. 行業現狀與相關應用
有關行業現狀,聲場採集部分一階Ambisonics(FOA,First-Order Ambisonics)已經很常見了,而且同時也出現不少高階Ambisonics (HOA,Higher-Order Ambisonics) 的採集。VR對於Ambisonic存在很強大的助推,Google和Facebook也在提供支持。得益於一些主流公司的支持,你們對此技術有了更多的認知和重視。
專業領域則主要是Object Audio和HOA兩大趨勢,接下來隨着5G、AR、VR的發展沉浸式音頻技術的將來是很是可期的。
關於沉浸式音頻技術的相關應用,毫無疑問影視娛樂,VR是最主要的應用,例如各家影院的杜比全景聲能夠說是很是常見的。此外,在我認爲會議實際上是非很好的應用點,你們都但願能有一個很好的沉浸式的會議體驗。另外,還有聲場採集以及在其它聲學領域的應用,例如聲學事件監測,定位等也逐漸開始出現一些應用。