音視頻--音頻入門

時間 2019-11-08

標籤音視頻音頻入門简体版

原文原文鏈接

音頻入門

聲音三要素

音調
聲音震動的頻率。高音低音、女聲男生。

音量
聲音震動的幅度。

音色
取決於材質，本質是諧波。

人類聽覺範圍

在進行音頻壓縮時，對於特定赫茲的數據(好比超聲波和次聲波)，能夠選擇忽略。

音頻的量化與編碼

量化的過程

五張圖表明不一樣的階段：html

截取一個音頻片斷ide
對音頻振幅進行採樣編碼

若干次橫向均份量化3d
對音頻高度進行量化code

若干次縱向均分orm
對片斷進行編碼cdn

將量化的音頻信息進行二進制轉化視頻
數字信號轉化htm

在二進制1位置時進行發聲blog

採樣大小

一個振幅高度採樣用多少位(bit)存放。一般是16位(bit)

採樣率

在音頻中，每秒採集的高度信息次數。8k、16k、32k、44.1k、48k

不一樣的編碼方式有不一樣的採樣率，好比AAC使用的是44.1k採樣率。

聲道數

單聲道，雙聲道，多聲道

碼率計算

採樣率×採樣大小×聲道數

AAC編碼壓縮後能夠大概128kb/s，AAC HE V2編碼能夠達到32kb/s。

音頻壓縮

有損壓縮技術

消除冗餘數據

關於冗餘信息：

超出人類聽覺範圍
被遮蔽掉的音頻信號
- 頻域遮蔽
- 時域遮蔽

頻域遮蔽效應

一個聲音會掩蓋另外一個聲音(圖中橫向爲頻率，總想爲分貝)。

紅色聲源會掩蓋其餘紫色聲源而沒法掩蓋綠色聲源

白色區域雖然在人耳聽覺範圍以內，可是因爲音量不夠，也是聽不到的。

時域遮蔽效應

當一個高分貝的聲音出現時，其先後必定時間內的低分貝聲音會被遮蔽

該圖橫向爲毫秒，縱向爲分貝

編碼過程

無損壓縮

哈夫曼無損編碼

音頻編解碼器

常見的音頻編解碼器：OPUS、ACC、Vorbis、Speex、iLBC、AMR、G.711

OPUS

當前十分流行的音頻編解碼器。內部具備基於口(速度快)、耳(高保真)兩個編解碼模型。

AAC

也是一種流行的音頻編解碼器。具備高保真的特性，因爲RTMP協議的支持性良好，主要應用於直播業務中。

Speex

在AAC與OPUS以前的主流音頻編解碼器。包括迴音消除，降噪等等輔助模塊。

G.711

固話的編解碼器

解碼器的比較

網上的測評結果中:OPUS>ACC>Vorbis

上圖中橫軸是音頻編碼碼率，縱軸是音頻頻帶信息。從圖中咱們能夠得到以下幾方面信息。

（1）對於固定碼率的編碼標準，如G.711或者G.722，圖中採用單點表示，說明這兩個編碼標準是固定碼率編碼標準。其餘如Opus、Speex，它們的曲線是連續的，說明這類編碼標準是可變碼率的編碼標準。

（2）從頻帶方面看，G.7十一、G.72二、AMR和iLBC等標準適用於narrowband（8khz採樣率）和wideband（16khz採樣率）範圍，針對普通的語音通話場景。AAC和MP3適用於fullband（48khz採樣率）範圍，針對特殊的音樂場景。而Opus適用於整個頻帶，能夠進行最大範圍的動態調節，適用範圍最廣。

（3）從標準的收費狀況看，適用於互聯網傳輸的iLBC、Speex和Opus都是免費且開源的；適用於音樂場景的MP3和AAC，須要license受權，並且不開源。