音視頻封裝格式：AAC音頻基礎和ADTS打包方案詳解

時間 2020-02-29

原文原文鏈接

問題背景：算法

如今主流的封裝格式支持的音視頻編碼標配是H264+AAC，其中像TS、RTP、FLV、MP4都支持音頻的AAC編碼方式。固然，後繼者不乏Opus這種編碼方式，它主要應用在互聯網場景，好比如今谷歌的WebRTC音視頻解決方案就用的Opus，最新發布的Android10支持的音視頻編碼方式就是AV1和Opus，可是AAC目前在廣電，安防，電影院等仍是應用最多，Opus目前還不足以威脅到AAC的地位。本篇文章準備講解下AAC的封裝格式ADTS字段含義和解封裝,順便講解下AAC編碼的一些基本狀況，若是你只關心解封裝，直接看【AAC的封裝格式】這節便可。網絡

AAC基本概況：ide

l AAC（Advance Audio Coding）：工具

即高級音頻編碼，出如今1997年，基於MPEG-2的音頻編碼技術，當時被稱爲MPEG-2 AAC,所以把其做爲MPEG-2(MP2)標準的延伸。是由Fraunhofer IIS、杜比實驗室、AT&T、Sony等公司共同開發，目的是取代MP3格式，隨着MPEG-4(MP4)標準在2000年的成型，則爲AAC也叫M4A。性能

l 和AC3編碼關係:優化

和AC3關係不大，AC3早於AAC，是由AAC的發起單位杜比實驗室和日本先鋒合做研製的新編碼方式。AAC能輸出AC-3的任何碼率，賽過AC-3，壓縮率更高，但技術上更加複雜。ui

l AAC背景和發展：this

1997年制定了不兼容MPEG-1的音頻標準MPEG-2 NBC即MPEG-2 AAC;編碼

1999年AAC又增長了LTP和PNS工具，造成了MPEG-4 AAC V1;spa

2002年在MPEG-4 AAC v1增長了SBR和錯誤魯棒性工具，造成了 HE-AAC;

2004年MPEG-4在HE-AAC引入了PS模塊，提高降碼率性能，造成了EAAC+;

對於1999年、2002年、2004年增長了SBR和PS等編碼技術的統稱爲MPEG-4 AAC；

備註：上面這些SBR PS等縮寫就是音頻的編碼算法代名詞，網上比較多，感興趣的能夠進一步自行搜索。1. SBR技術即Spectral Band Replication(頻段複製)音樂的主要頻譜集中在低頻段，高頻段幅度很小，但很重要，決定了音質。若是對整個頻段編碼，如果爲了保護高頻就會形成低頻段編碼過細以至文件巨大；如果保存了低頻的主要成分而失去高頻成分就會喪失音質。SBR把頻譜切割開來，低頻單獨編碼保存主要成分，高頻單獨放大編碼保存音質，「統籌兼顧」了，在減小文件大小的狀況下還保存了音質，完美的化解這一矛盾。

PS指「parametric stereo」（參數立體聲）。原來的立體聲文件文件大小是一個聲道的兩倍。可是兩個聲道的聲音存在某種類似性，根據香農信息熵編碼定理，相關性應該被去掉才能減少文件大小。因此PS技術存儲了一個聲道的所有信息，而後，花不多的字節用參數描述另外一個聲道和它不一樣的地方。

l AAC編碼技術參數：

採樣率範圍：8KHz-96KHz 範圍比較廣，就是一秒在模擬信號上進行多少次採樣；

碼率：8kbps-576kbps，支持範圍比較寬，在壓縮比和質量上都能考慮到；

聲道：最多支持48個主聲道，16個低頻聲道，聲音細節更豐富，音樂場景也用的多；

採樣精度：就是一個採樣點須要在計算機表示佔用的字節數，通常用2字節16bit表示；

l AAC編碼的主要規格：

根據不一樣的編碼技術，AAC的編碼分爲九種規格，這和H264的編碼規格大同小異。

MPEG-2 AAC LC低複雜度規格（Low Complexity）編碼方式比較簡單，沒有增益控制，可是提升了編碼效率，在中等碼率的編碼效率和音質方面，都能找到平衡點。
MPEG-2 AAC Main 主規格
MPEG-2 AAC SSR 可變採樣率規格（Scaleable Sample Rate）
MPEG-4 AAC LC 低複雜度規格（Low Complexity）
MPEG-4 AAC Main 主規格--包含了除增益控制以外的所有功能，音質最好
MPEG-4 AAC SSR 可變採樣率規格（Scaleable Sample Rate）
MPEG-4 AAC LTP 長時期預測規格（Long Term Prediction）
MPEG-4 AAC LD 低延遲預測規格（Low Delay）
MPEG-4 AAC HE 高效率規格（High Efficency）--這種規格適合用於低碼率編碼，有Nero-ACC編碼器支持，是一種成熟的商用編碼器。

目前使用最多的就是LC和HE（適合下降碼率），流行的Nero AAC編碼程序支持LC、HE、HEv2三種規格的，並且編碼後的AAC音頻，規格都顯示LC。其中HE就是在AAC(LC)編碼技術上增長SBR技術，HEv2就是AAC（LC）上技術上不只僅增長了SBR技術，同時也增長了PS技術。

因此通常的商業音頻編碼器只支持部分編碼規格，這也是咱們選擇編碼器的重要考慮因素之一，由於不一樣的編碼規格支持的音頻採樣率，碼率都不同，背後採用的編碼技術和算法複雜度也不同。

l AAC編碼方式特色：

AAC高壓縮比的音頻編碼方式，比G7xx、MP三、AC3系列的壓縮比都高，而且質量和CD差很少，可是和比較新的Opus仍是差點，不過Opus目前還未充分普及；
AAC也採用了變換編碼算法，採用了更高的濾波器組，這是壓縮高的緣由；
AAC爲了提升壓縮比，還採用了噪聲重整，反向自適應預測，聯合立體聲和量化霍夫曼編碼算法等新技術；
AAC支持了更多的採樣率和比特率，支持了1-48個音軌和多達15個低頻音軌，具備多種語言兼容能力；
AAC支持了更寬的聲音頻率範圍，從8KHz-96KHz,遠寬於MP3的16KHz-48KHz範圍；
AAC特殊的算法能夠保有聲音頻率甚高和甚低頻率。聲音細節更豐富更清晰更接近原聲；
AAC採用了優化算法，致使解碼端簡單，下降了解碼端的處理複雜度；

AAC的封裝格式：

n AAC封裝類型：

ADIF:Audio Data Interchange Format音頻數據交換格式，這種格式通常應用在將音頻經過寫文件方式存儲在磁盤裏，不能進行隨機訪問，不容許在文件中間開始進行解碼。只有拿到整個文件時才能開始進行渲染播放，這種暫時還沒用到，不是這篇文章的重點。
ADTS:Audio Data Transport Stream 音頻數據傳輸流。這種格式的特徵是用同步字節進行將AAC音頻截斷，而後能夠容許客戶端在任何地方進行解碼播放，適合網絡傳輸場景。這也是本文介紹的封裝格式重點。

ADTS的格式以下：

n AAC封裝頭字段：

ADIF的格式：

adif_sequence

adif_header + byte_alignment + raw_data_stream

adif_header + byte_alignment + raw_data_block......+ raw_data_block

ADIF Header頭信息以下：

ADTS的格式：

adts_sequence

adts_frame + adts_frame + ...... + adts_frame

adts_fixed_header + adts_variable_header + error_check + raw_data_block + error_check

ADTS header 的固定頭和可變頭信息：

固定頭意思就是一旦音頻文件造成，全部幀的信息頭字段意義都是同樣的，可是可變頭說的是每一個幀這裏面字段都有不同的地方，不要理解爲無關緊要的意思。

ADTS幀頭各個字段和含義：

序號

域

長度bits

說明

解釋

Syncword

all bits must be 1

老是0xFFF,表明一個ADTS幀的開始，做爲分界符，用於同步每幀起始位置。

ID即MPEG version

0 for MPEG-4, 1 for MPEG-2

通常用0，由於都是屬於MPEG的規範。

Layer

always 0

老是00

Protection Absent

set to 1 if there is no CRC and 0 if there is CRC

這裏表明是否有CRC檢驗字段，1表明沒有，0表明有。

Profile

the MPEG-4 Audio Object Type minus 1

表明使用哪一個級別和規範的AAC，其中01表明Low Complexity(LC),其中profile等於Audio Object Type的值減1，其中全部Audio Object Type值在下面所示。

Sampling Frequency Index

MPEG-4 Sampling Frequency Index (15 is forbidden)

採樣率下標，因爲AAC的採樣率範圍是8KHz-96KHz，因此具體用那個，這個字段決定。

Private Bit